
点击上方“Deephub Imba”,关注公众号,好文章不错过 !
昨天刚发完文章在看知乎的时候就看到了这个问题,DeepSeek又发新模型了,我赶紧就去下载论文简单扫了一遍,发现这个模型还是很有深度的,所以我把我知乎的回答直接复制过来了,有兴趣的可以看看

这个工作不是在单纯提高 OCR 的准确率,而是在尝试解决一个更大的问题——大模型的上下文瓶颈。
它不是单纯在“识字”,而是在试图用视觉的方式去压缩长文本上下文,因为它碰到的其实是所有大模型都头疼的问题:上下文太长,token 不够用。
传统的 OCR 是“图像 → 文本”,把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着玩:它把文字重新“画成图”,再用视觉模型去理解这张图,然后再从视觉特征里还原出文字。换句话说,它不是靠语言 token 去表示文本信息,而是用视觉 token——也就是图片的二维编码去装下这些内容。
这样做的好处在于,图像的二维结构比一串字符能装下的信息密度更高。比如一本书的两页内容,用文字得上几千个 token,用视觉形式可能几百个 token 就够了。这就是论文标题里那句“Contexts Optical Compression”的意思
模型架构也由两个部分组成:
一个是 DeepEncoder,负责把输入的图像压成很紧凑的视觉 token;
另一个是 DeepSeek-3B-MoE,是个 30 亿参数的 Mixture-of-Experts 模型,用来从这些压缩后的视觉 token 里“解读”出文字。
这里的 MoE 不太常见在 OCR 里出现,它更常见于语言模型。DeepSeek 把它搬进 OCR,目的是在不同文档类型之间自动选择最合适的专家,从而兼顾表格、段落、手写体等多种结构。
官方的实验数据挺猛的:在 10 倍压缩的情况下识别精度还能保持 97%,20 倍压缩也有 60% 左右。也就是说如果普通 OCR 需要 10,000 个 token 才能读完整篇文档,这个模型可能只用 1,000 个就能搞定。对于大模型处理长文档那种场景,这个差距太关键了——token 成本是直接的钱。
论文里还提到一个基准叫 OmniDocBench,这是专门测试复杂文档(混排、表格、公式、图文混合)理解能力的。DeepSeek-OCR 在这个基准上,用更少的视觉 token 数量就超过了 GOT-OCR 2.0 和 MinerU 2.0,这俩都是目前比较强的开源 OCR 模型。甚至还有个有趣的配置叫“Gundam 模式”,动态组合分辨率,让 token 数控制在 800 以内。
也就是说:它不只是识字,还能理解文档布局,能还原 Markdown、表格结构、甚至图表。某种程度上,它已经不是 OCR,而更接近“文档理解引擎”。
DeepSeek 团队在论文里提到,他们想验证“视觉模态是否能成为长上下文压缩的一种方式”。我个人理解这其实在探索大模型的“记忆机制”:当上下文太长时,是否可以把旧内容转成一种更紧凑的视觉记忆?比如把一段对话压成图片形式,让模型在需要时再“回忆”它。这个设想和人脑记忆挺像——不是逐字记,而是以画面或印象形式存储。
最后,虽然视觉 token 数少了,但模型的计算复杂度其实不一定更低。DeepEncoder 的视觉处理部分 + MoE 的专家调度,推理开销可能并不小。就算 Hugging Face 的版本标注在 A100 40G 上能跑 2500 tokens/s,那也算中等偏上速度,谈不上轻量级。
总的来说,它用视觉方式重构信息密度,让文档理解变得更紧凑。这背后其实隐含着一种“跨模态思维”:也许未来长上下文不一定要靠文本扩容,可能靠视觉压缩、语义记忆,甚至听觉 embedding 来实现。它证明了一个方向:视觉模态不仅能“看”,也能“记”,甚至能成为一种新的压缩语言。
如果真能沿着这条路走下去,说不定下一代的“长上下文大模型”,背后记忆的,不再是文字串,而是一张张“思维截图”。DeepSeek总能带来一些惊喜,等我回头再仔细看下这篇文章,好好研究一下。
回答的原文在这里,里面还有其他人的回复,质量很高:
https://www.zhihu.com/question/1963642369963426172/answer/1963747582166668097

最后做个广告,有兴趣的可以关注我的知乎,因为可以随时发内容,比这里更新的内容要多的多
喜欢就关注一下吧:
点个 在看 你最好看!
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!