
当前,大语言模型(LLM)的序列长度扩展面临一个核心挑战:计算资源的二次方复杂度增长。处理极长文本序列时,注意力机制所需的算力消耗与序列长度平方成正比,这使得LLM在处理万级别以上Token长度的上下文时,计算成本和时间延迟急剧攀升。
DeepSeek-OCR论文提出了一种创新的视角,将视觉模态视作一种高效的文本压缩介质。文档图像包含丰富的文本信息,但其视觉表示(Vision Tokens)数量可以远少于等价的数字文本Token,从而提供了一种通过光学二维映射实现长上下文压缩的可行路径。该研究将光学字符识别(OCR)任务作为核心试验场,因为它天然构建了视觉表示到文本表示的“压缩-解压”映射,为量化分析提供了明确的指标。DeepSeek-OCR作为这一范式的初步概念验证(Proof-of-Concept),旨在探索视觉-文本压缩的边界。对本研究的原始论文《DeepSeek-OCR: Contexts Optical Compression》和本文的PDF版本,可从“走向未来”【https://t.zsxq.com/xpWzq】知识星球中获取,与行业专家一同解读前沿技术。
DeepSeek-OCR的技术架构设计,体现了在保证高感知能力和推理效率上的精妙平衡,尤其关注高分辨率输入与低激活内存之间的矛盾管理。

DeepEncoder是实现上下文光学压缩的核心。其设计目标是:处理高分辨率图像,同时维持较低的激活内存和最少的Vision Tokens。架构上,DeepEncoder采用了串联式结构,整合了两种关键注意力机制:
这种串联设计策略实现了工程上的优势:首先利用局部注意力高效处理高分辨率输入,然后在进入计算密集型全局注意力之前,通过硬件友好的卷积操作进行Tokens数量的压缩,有效地将激活内存的压力从感知组件转移到压缩模块。
DeepSeek-OCR的解码器采用DeepSeek-3B-MoE架构。选择MoE(Mixture-of-Experts)结构是一项产品决策,它实现了高模型表达能力与高推理效率的兼顾。
DeepSeek-3B-MoE在推理时仅激活570M参数(6个路由专家和2个共享专家),使得模型在保持3B级别性能的同时,享有500M小模型的推理效率。对于OCR这种领域中心化的VLM研究,MoE结构提供了合适的算力支撑。解码器的功能在于重建原始文本表示()从压缩的潜在视觉Tokens()中,其中n<=N。实验证明,紧凑的语言模型能够通过OCR训练有效地学习这种非线性映射关系,支持未来LLM通过专门预训练继承此类能力。

为了探测量化边界和增强实用性,DeepEncoder配置了多种分辨率模式(Tiny, Small, Base, Large, Gundam, Gundam-Master)。这不仅是实验的需要,更是工程部署的考量。

这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。例如,针对超高分辨率输入(如报纸),Gundam模式通过平铺(Tiling)机制,以多局部视图加全局视图的方式进一步减少激活内存,将Tokens数量控制在n×100+256的合理范围(n为平铺块数量,控制在2到9之间)。多分辨率支持使DeepSeek-OCR能够适应多样化的实际文档类型,避免对所有输入使用单一固定、高昂的Token数量。
DeepSeek-OCR的实验结果量化了视觉-文本压缩的可行性,并确立了其在生产环境中的实用价值。
在Fox基准测试中,模型针对600-1300个文本Tokens的英文文档进行了压缩-解压能力的验证。实验数据明确了压缩比与解码精度的关系:
这些发现为VLM的Tokens分配优化提供了经验依据,并暗示了未来通过文本到图像方法实现近10倍无损上下文压缩的可能性。
在OmniDocBench真实文档解析任务上,DeepSeek-OCR展现出超越现有先进模型的实用能力:
文档类型分析进一步证实了压缩边界的实际意义:对于文本密度较低的文档(如Slides),64个Tokens即可满足要求;而对于文本量大、排版复杂的报纸,则需要Gundam模式(Tokens数量可达4-5倍)才能达到可接受的编辑距离。
DeepSeek-OCR的工作不仅是OCR技术的进步,更代表了一种全新的AI系统范式,对LLM架构和AI芯片的资源利用产生了深远的影响。
视觉-文本光学压缩范式提供了一种结构性的手段来管理LLM的超长上下文。LLM处理长对话历史或超大文档时,通过将历史上下文渲染为图像,再通过DeepEncoder压缩成少量Vision Tokens,将原本可能高达数万个文本Tokens的输入序列转化为数百个视觉Tokens。
这种转化机制将序列长度从LLM的瓶颈区域(二次方复杂度)转移到视觉编码器的感知分辨率区域(线性复杂度),成功地将计算瓶颈降维,实现上下文的计算解耦。Vision Tokens数量的减少直接降低了Transformer解码器在Prefill和Generation阶段的KV缓存(Key-Value Cache)占用和注意力计算量,从而大幅提升了LLM的推理吞吐量和延迟表现。
理论与实践的交汇:光学压缩作为知识增强基石
DeepSeek-OCR通过光学压缩实现的超长上下文效率,其战略意义已超越单一的文档识别范畴,直接触及了知识增强大模型(K-LLM)的核心问题。资深人工智能学者王文广在其权威著作《知识增强大模型》中,深刻指出了传统大模型的固有特性:知识陈旧和易产生幻觉,强调了外部知识注入的重要性。DeepSeek-OCR所提供的近乎无损的超高压缩比,正是解决这些问题的关键工程实践路径之一。它确保LLM能够以计算高效的方式,将海量的外部文档知识(如金融报告、专利文献、学术论文等)作为即时、可信的“外部记忆”纳入推理流程。这种能力使LLM不再受限于训练语料的边界,能够实时、高效地从文档视觉表示中提取结构化和非结构化知识,从而本质上增强了模型的知识可靠性和时效性。从系统工程角度看,光学压缩是构建下一代大规模、高可靠性知识增强系统的高能效基石。
该研究提出了一个创新性的概念:将上下文光学压缩与人类记忆的渐进式遗忘机制进行类比。

人类的记忆随着时间推移自然衰退,表现为信息保真度的下降。DeepSeek-OCR通过多级压缩模拟这种遗忘:将远期上下文渲染为图像后,通过渐进式地降采样(Resizing),如从Gundam模式降级到Tiny模式,Vision Tokens的数量逐渐减少,图像信息逐渐模糊。这种方法实现了文本信息的多层级、可控的信息损失,使得近期的、关键的上下文保持高分辨率和高保真度,而远期的、非核心的上下文则以极低的Token成本被保留在上下文中。这一机制为构建具备理论上无限上下文能力,同时能动态平衡信息保留与计算约束的LLM架构,提供了新的方向。
从AI芯片的角度看,DeepSeek-OCR的价值在于提高了硬件的有效利用率。LLM推理过程中的瓶颈在于I/O带宽(KV缓存)和注意力计算。Vision Tokens的锐减(从N到n,n <= N)对现有AI加速器(如NVIDIA H100)的影响是:
DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。如果您对生成式人工智能、大模型、AI芯片和机器人等的前沿产品、技术和应用实践有浓厚兴趣,强烈建议加入最具价值知识星球“走向未来” (https://t.zsxq.com/xpWzq),在星球中探讨如何使用智能体为工作增效、为生活添彩,共同迈向通用人工智能(AGI)的未来。
DeepSeek-OCR的应用价值超越了传统的文本识别,通过其强大的数据引擎和深度解析能力,瞄准了新一代的文档智能市场,即OCR 2.0。
DeepSeek-OCR的训练数据构建体现了对复杂应用场景的覆盖:
“深度解析”(Deep Parsing)是DeepSeek-OCR在高价值应用中的体现。在统一的指令下,模型能够:
这种将非结构化文档中的嵌套复杂图像转化为结构化数据的能力,是下一代文档智能产品评估的关键标准,在金融分析、知识图谱构建和自动化研究等领域拥有巨大的市场潜力。DeepSeek-OCR通过视觉压缩实现的高效推理,使其成为构建这类高频、高精度结构化数据提取服务平台的理想基础模型。
DeepSeek-OCR提供了一个关于上下文光学压缩可行性的有力证明,展示了VLM能够以极低的Vision Tokens数量高效解码远超其数量的文本Tokens。这一成果为LLM的长上下文处理、记忆机制设计以及AI芯片的能效优化开辟了新的研究方向。
未来研究将聚焦于上下文光学压缩的理论边界,例如通过“数字-光学”文本交错预训练、以及针对性地进行“大海捞针”(Needle-in-a-Haystack)测试,进一步验证该范式在信息检索和上下文利用上的稳健性。可以预见,视觉模态不再仅仅是文本的补充,它将成为大模型架构中实现高能效、长时程上下文管理的核心计算工具。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。