像人一样阅读文档！DeepSeek发布新一代OCR模型，识别性能提升近4%

文章来源：企鹅号 - PConline太平洋科技

【太平洋科技快讯】1 月 27 日消息，DeepSeek 今日发布新一代文档识别模型 DeepSeek-OCR 2，在前代基础上通过视觉编码器设计的创新实现识别性能提升。

研究团队提出名为 DeepEncoder V2 的全新编码器架构，能够根据图像语义动态调整视觉信息处理顺序，使模型在进行文字识别前先对视觉内容进行智能排序。这一“视觉因果流”技术改变了传统模型按照固定栅格顺序处理图像的方式，更贴近人类基于语义逻辑的跳跃式阅读习惯。

具体实现上，研究团队采用类语言模型结构替代了基于 CLIP 的视觉编码模块，在编码器内部引入可学习的“因果流查询 token”。该设计同时包含双向注意力与因果注意力两种处理模式：原始视觉信息通过双向注意力进行全局感知，而查询标记则通过因果注意力逐步建立语义顺序，实现对视觉 token 的动态重排。最终只有经过语义重排的查询 token 会被送入基于混合专家架构的语言模型解码，在保持与前代相近资源开销的前提下完成识别任务。

性能测试显示，在 OmniDocBench v1.5 基准评估中，DeepSeek-OCR 2 整体得分达到 91.09%，较前代提升 3.73%。其阅读顺序准确度有所改善，编辑距离从 0.085 降至 0.057。实际应用数据显示，在线用户日志图像的重复率从 6.25% 降至 4.17%，批处理PDF数据的重复率从 3.69% 降至 2.88%，在复杂文档场景中展现出更强的结构理解能力和运行稳定性。

发表于: 2026-01-272026-01-27 15:41:13
原文链接：https://page.om.qq.com/page/O5Rq-Yz7KLJnpewD-VJTcnbg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

像人一样阅读文档！DeepSeek发布新一代OCR模型，识别性能提升近4%

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐