首页
学习
活动
专区
圈层
工具
发布

像人一样阅读文档!DeepSeek发布新一代OCR模型,识别性能提升近4%

【太平洋科技快讯】1 月 27 日消息,DeepSeek 今日发布新一代文档识别模型 DeepSeek-OCR 2,在前代基础上通过视觉编码器设计的创新实现识别性能提升。

研究团队提出名为 DeepEncoder V2 的全新编码器架构,能够根据图像语义动态调整视觉信息处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。这一“视觉因果流”技术改变了传统模型按照固定栅格顺序处理图像的方式,更贴近人类基于语义逻辑的跳跃式阅读习惯。

具体实现上,研究团队采用类语言模型结构替代了基于 CLIP 的视觉编码模块,在编码器内部引入可学习的“因果流查询 token”。该设计同时包含双向注意力与因果注意力两种处理模式:原始视觉信息通过双向注意力进行全局感知,而查询标记则通过因果注意力逐步建立语义顺序,实现对视觉 token 的动态重排。最终只有经过语义重排的查询 token 会被送入基于混合专家架构的语言模型解码,在保持与前代相近资源开销的前提下完成识别任务。

性能测试显示,在 OmniDocBench v1.5 基准评估中,DeepSeek-OCR 2 整体得分达到 91.09%,较前代提升 3.73%。其阅读顺序准确度有所改善,编辑距离从 0.085 降至 0.057。实际应用数据显示,在线用户日志图像的重复率从 6.25% 降至 4.17%,批处理PDF数据的重复率从 3.69% 降至 2.88%,在复杂文档场景中展现出更强的结构理解能力和运行稳定性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5Rq-Yz7KLJnpewD-VJTcnbg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券