事项:
2025 年10 月20 日, DeepSeek 团队开源视觉文本压缩模型 DeepSeek-OCR,通过光学压缩技术实现多模态文档的高效解析与跨语言处理。
评论:
DeepSeek-OCR 实现高效近无损文本图像处理。DeepSeek-OCR 是一款创新型多模态模型,其核心创新在于提出“上下文光学压缩”( Contexts OpticalCompression)技术,通过将文本转化为图像实现高效信息压缩。模型架构分为视觉编码器DeepEncoder 和轻量级解码器DeepSeek3B-MoE 两部分。
DeepEncoder 基于SAM+CLIP 双结构设计,通过局部窗口注意力和双层16 倍卷积压缩模块,显著减少视觉token 数量(如1024×1024 图像仅需256 个token);解码器则采用混合专家(MoE)机制,推理时仅激活5.7 亿参数,兼顾高效与性能。其主打优势包括:10 倍压缩比下实现97%近无损解码精度、单A100 GPU 日处理20 万页数据的超高效率,以及在OmniDocBench 基准中以100 视觉token 超越竞品256token 的卓越表现。
DeepSeek-OCR 的多模态架构在高低分辨率下均保持高效压缩性能。
DeepSeek-OCR 的创新性体现在三方面:首先,DeepEncoder 支持多分辨率模式,从轻量Tiny 到高保真Gundam,可自适应不同复杂度任务;其次,其数据引擎覆盖3000 万页多语言文档及图表、化学式等OCR 2.0 数据,赋予模型跨模态解析能力;最后,训练流程采用两阶段策略——先独立训练DeepEncoder完成视觉压缩,再联合训练完整模型优化解压能力。实验显示,模型在Fox 基准的10 倍压缩下精度达97%,20 倍压缩仍保持60%,验证了光学压缩的可行性。此外,Gundam-master 模式通过600 万条数据微调,进一步提升了超高分辨率输入的处理能力。模型在处理不同类型文档时展现出差异化需求,这种灵活性使其在实际应用中能根据不同场景动态调整计算资源。
DeepSeek-OCR 以视觉压缩赋能多领域文档智能处理与跨语言分析。
DeepSeek-OCR 的实用价值体现在三领域:一是为LLM/VLM 预训练提供高效数据生成方案,如在金融报告中自动提取图表结构化信息;二是支持STEM 领域专业化解析,如将化学式转化为SMILES 格式;三是突破长上下文算力瓶颈,通过视觉token 替代文本token 减少计算开销。模型还具备多语言兼容性(支持近百种语言)和通用视觉理解能力。团队指出,该技术为大模型优化信息表达方式提供了新思路,未来或可通过选择性压缩模拟人类遗忘机制,实现更智能的长文本处理。值得注意的是,该模型在20个A100 节点上日处理3300 万页数据的吞吐能力,以及对小语种(如阿拉伯语、僧伽罗语)的良好支持,使其在全球化商业部署中具有显著优势,这种"视觉即压缩"的范式可能重塑未来大语言模型的输入方式。
投资建议:建议关注AI 细分景气方向:
国产算力:阿里巴巴、寒武纪、海光信息、中科曙光、景嘉微、龙芯中科等。
企业服务:1)办公:金山办公、合合信息、福昕软件;2)多模态:海康威视、快手、三六零、虹软科技;3)ERP:金蝶国际、用友网络、聚水潭;4)OA:
泛微网络、致远互联;5)编程:卓易信息;6)营销:迈富时、明源云。
应用场景:1)金融:大智慧、同花顺、恒生电子、第四范式、宇信科技、京北方、中科金财;2)教育:科大讯飞、视源股份、新开普、佳发教育;3)法律:华宇软件、金桥信息;4)医疗:阿里健康、卫宁健康、讯飞医疗科技、晶泰控股;5)电商:焦点科技;6)安全:深信服;7)工业:华大九天、中控技术、中望软件、索辰科技;8)军用:中科星图、太极股份、能科科技等。
风险提示:技术进展不及预期;模型落地不及预期;商业落地不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:郭健东 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论