DeepSeek=发布视觉压缩OCR模型 DeepSeek-OCR，哪些信息和技术亮点值得关注？

deephub

发布于 2025-11-15 11:46:55

1140

文章被收录于专栏：DeepHub IMBADeepHub IMBA

点击上方“Deephub Imba”,关注公众号,好文章不错过 !

昨天刚发完文章在看知乎的时候就看到了这个问题，DeepSeek又发新模型了，我赶紧就去下载论文简单扫了一遍，发现这个模型还是很有深度的，所以我把我知乎的回答直接复制过来了，有兴趣的可以看看

这个工作不是在单纯提高 OCR 的准确率，而是在尝试解决一个更大的问题——大模型的上下文瓶颈。

它不是单纯在“识字”，而是在试图用视觉的方式去压缩长文本上下文，因为它碰到的其实是所有大模型都头疼的问题：上下文太长，token 不够用。

传统的 OCR 是“图像 → 文本”，把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着玩：它把文字重新“画成图”，再用视觉模型去理解这张图，然后再从视觉特征里还原出文字。换句话说，它不是靠语言 token 去表示文本信息，而是用视觉 token——也就是图片的二维编码去装下这些内容。

这样做的好处在于，图像的二维结构比一串字符能装下的信息密度更高。比如一本书的两页内容，用文字得上几千个 token，用视觉形式可能几百个 token 就够了。这就是论文标题里那句“Contexts Optical Compression”的意思

模型架构也由两个部分组成：

一个是 DeepEncoder，负责把输入的图像压成很紧凑的视觉 token；

另一个是 DeepSeek-3B-MoE，是个 30 亿参数的 Mixture-of-Experts 模型，用来从这些压缩后的视觉 token 里“解读”出文字。

这里的 MoE 不太常见在 OCR 里出现，它更常见于语言模型。DeepSeek 把它搬进 OCR，目的是在不同文档类型之间自动选择最合适的专家，从而兼顾表格、段落、手写体等多种结构。

官方的实验数据挺猛的：在 10 倍压缩的情况下识别精度还能保持 97%，20 倍压缩也有 60% 左右。也就是说如果普通 OCR 需要 10,000 个 token 才能读完整篇文档，这个模型可能只用 1,000 个就能搞定。对于大模型处理长文档那种场景，这个差距太关键了——token 成本是直接的钱。

论文里还提到一个基准叫 OmniDocBench，这是专门测试复杂文档（混排、表格、公式、图文混合）理解能力的。DeepSeek-OCR 在这个基准上，用更少的视觉 token 数量就超过了 GOT-OCR 2.0 和 MinerU 2.0，这俩都是目前比较强的开源 OCR 模型。甚至还有个有趣的配置叫“Gundam 模式”，动态组合分辨率，让 token 数控制在 800 以内。

也就是说：它不只是识字，还能理解文档布局，能还原 Markdown、表格结构、甚至图表。某种程度上，它已经不是 OCR，而更接近“文档理解引擎”。

DeepSeek 团队在论文里提到，他们想验证“视觉模态是否能成为长上下文压缩的一种方式”。我个人理解这其实在探索大模型的“记忆机制”：当上下文太长时，是否可以把旧内容转成一种更紧凑的视觉记忆？比如把一段对话压成图片形式，让模型在需要时再“回忆”它。这个设想和人脑记忆挺像——不是逐字记，而是以画面或印象形式存储。

最后，虽然视觉 token 数少了，但模型的计算复杂度其实不一定更低。DeepEncoder 的视觉处理部分 + MoE 的专家调度，推理开销可能并不小。就算 Hugging Face 的版本标注在 A100 40G 上能跑 2500 tokens/s，那也算中等偏上速度，谈不上轻量级。

总的来说，它用视觉方式重构信息密度，让文档理解变得更紧凑。这背后其实隐含着一种“跨模态思维”：也许未来长上下文不一定要靠文本扩容，可能靠视觉压缩、语义记忆，甚至听觉 embedding 来实现。它证明了一个方向：视觉模态不仅能“看”，也能“记”，甚至能成为一种新的压缩语言。

如果真能沿着这条路走下去，说不定下一代的“长上下文大模型”，背后记忆的，不再是文字串，而是一张张“思维截图”。DeepSeek总能带来一些惊喜，等我回头再仔细看下这篇文章，好好研究一下。

回答的原文在这里，里面还有其他人的回复，质量很高：

https://www.zhihu.com/question/1963642369963426172/answer/1963747582166668097