关键词:FireRed-OCR、文档解析、结构幻觉、OmniDocBench、Qwen3-VL、表格识别、公式识别、端到端OCR、Markdown输出、本地商用部署

在做知识库构建和 RAG 项目时,我踩过最多的坑,不是向量检索,而是文档结构还原。
最近来自小红书超级智能团队的 FireRed-OCR 给了一个非常干脆的答案: 用仅 20 亿参数(2B) 的轻量模型,在 OmniDocBench v1.5 端到端评测中拿下 92.94% 综合得分第一,超过 Gemini 3.0 Pro、DeepSeek-OCR 2 和 Qwen3-VL-235B。
更关键的是: 模型已在 ModelScope 开源,Apache 2.0 协议,支持本地商用部署。
在复杂文档解析中,通用大视觉语言模型(VLM)存在典型问题:
这类问题被称为:结构幻觉(Structural Hallucination)
本质原因在于:
通用 VLM 强于语义生成,但缺乏对空间结构的强约束。
FireRed-OCR 的目标非常明确: 把模型从“语言生成器”改造成“结构工程师”。
FireRed-OCR 并非简单微调,而是完整的训练框架设计。
目标:建立空间感知基础。
这一阶段相当于给模型建立“文档坐标系”。
在高质量 Markdown 数据上进行精调:
这一步确保模型输出可直接进入下游系统。
这是核心创新。
在 GRPO(Group Relative Policy Optimization)基础上,引入格式奖励信号,覆盖四个维度:
维度 | 约束内容 |
|---|---|
公式 | LaTeX 语法合法性 |
表格 | 标签完整闭合 |
层级 | Markdown 嵌套正确 |
文本 | 字符级识别精度 |
模型每次生成后都会被“格式打分”。
长期训练后形成结果:
输出不仅语义正确,而且结构合规。
团队构建了一套自动数据增强系统:
专门解决真实场景中“奇怪排版”的问题。
FireRed-OCR-2B:
需要说明:
属于多模型流水线方案,并非单模型端到端。
FireRed-OCR 是端到端单模型中的最优解。
FireRed-OCR-2B:
可以看到:
相比基座模型,提升接近 9 分。
基于 Qwen3-VL 架构。
pip install transformers qwen-vl-utilsfrom modelscope import Qwen3VLForConditionalGeneration, AutoProcessor
from conv_for_infer import generate_conv
import torch
model = Qwen3VLForConditionalGeneration.from_pretrained(
"FireRedTeam/FireRed-OCR-2B",
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained("FireRedTeam/FireRed-OCR-2B")
image_path = "./examples/complex_table.png"
messages = generate_conv(image_path)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
generated_ids_trimmed = [
out_ids[len(in_ids):]
for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed,
skip_special_tokens=True
)
print(output_text)输出即标准 Markdown,可直接进入:
建议开启:
attn_implementation="flash_attention_2"可明显降低显存峰值。
建议:
低质量扫描会导致整体分数降至约 74 分水平。
方案 | 优点 | 缺点 |
|---|---|---|
流水线 | 极致精度 | 工程复杂 |
FireRed-OCR | 部署简单、结构稳定 | 极端场景略低 1–2% |
如果你做的是:
FireRed-OCR 是当前性价比非常高的选择。
FireRed-OCR 做对了一件事:
在垂直任务中,用专项训练打败大参数堆叠。
让 2B 模型在专项文档解析上战胜 235B 通用模型。
这也说明一个趋势:
在工程落地场景中,结构正确性比语言华丽更重要。
模型地址:
https://modelscope.cn/models/FireRedTeam/FireRed-OCR
如果你正在做文档数字化或知识库建设,这个项目值得测试一轮。