首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >PaddleOCR 更新了,0.9B参数干翻一众大模型,94.5%准确率,百度这波赢麻了

PaddleOCR 更新了,0.9B参数干翻一众大模型,94.5%准确率,百度这波赢麻了

作者头像
Ai学习的老章
发布2026-02-03 17:50:10
发布2026-02-03 17:50:10
5950
举报

大家好,我是 Ai 学习的老章

关于 OCR 这个话题,我之前写过太多了:

  • 本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件
  • DeepSeek 最新开源 OCR 模型,实测,不如百度
  • 撸了一个 OCR 大模型对比工具:DeepSeekOCR、PaddleOCR 和 混元 OCR
  • 大模型 OCR 的黄金时代,腾讯开源混元 OCR,文档解析、视觉问答和翻译方面达到 SOTA
  • 吴恩达最新公开课《文档 AI》,PaddleOCR 实战,笔记

刚刚,百度又放大招了!PaddleOCR-VL-1.5 正式发布,0.9B 参数干翻一众百亿级大模型,在 OmniDocBench v1.5 上达到 94.5% 准确率,直接刷新 SOTA。这让我不禁想起之前测试 DeepSeek-OCR 时的结论——"不如百度",现在百度用新版本再次证明了自己。

简介

PaddleOCR-VL-1.5 是 PaddleOCR-VL 的下一代升级版本,主打一个"以小博大"。只有 0.9B 参数(没错,不到 1B),却在文档解析领域全面超越了一众开源和闭源大模型。

下图展示了 PaddleOCR-VL-1.5 的模型架构和多任务能力:

PaddleOCR-VL-1.5 模型架构与任务概览
PaddleOCR-VL-1.5 模型架构与任务概览

PaddleOCR-VL-1.5 模型架构与任务概览

这货最牛的地方是什么?它是基于 ERNIE-4.5-0.3B 微调的!百度把自家的 ERNIE 4.5 系列和 PaddleOCR 的工程经验结合起来,搞出了这么个小而美的怪物。

官方给它的定位是:Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing(面向真实场景的多任务 0.9B 视觉语言模型),翻译成人话就是——"别管你的文档有多烂、多歪、多糊,我都能给你认出来"。

核心指标一览,直接甩出成绩单:

PaddleOCR-VL-1.5 核心指标
PaddleOCR-VL-1.5 核心指标

PaddleOCR-VL-1.5 核心指标

核心能力一览:

  1. 94.5% 准确率:在 OmniDocBench v1.5 上刷新 SOTA,表格、公式、文本识别全面提升
  2. 真实场景鲁棒性:支持 5 种恶劣场景——扫描、倾斜、弯曲、屏幕拍摄、光照不均,统统 SOTA
  3. 多任务能力:新增 文本定位(Text Spotting)印章识别(Seal Recognition),这两个能力在各自任务上也是 SOTA
  4. 多语言支持:除了中英文,还扩展了藏文和孟加拉语,生僻字、古籍、下划线、复选框全都能识别
  5. 长文档支持:自动跨页表格合并、跨页段落标题识别,再也不用担心 PDF 被切得七零八落

亮点

PaddleOCR-VL-1.5 证明了工程能力 + 场景理解 > 单纯堆参数

  1. 不追求大模型:0.9B 参数就够用,能在消费级显卡上流畅运行
  2. 聚焦真实场景:专门针对扫描件、倾斜、弯曲等常见问题做优化
  3. 多任务整合:OCR、表格、公式、印章、图表一个模型全搞定
  4. 开放生态:支持 PaddlePaddle、vLLM、Transformers 多种推理方式

安装

安装方式非常简单,官方提供了 pip 一键安装:

代码语言:javascript
复制
# 安装 PaddlePaddle(CUDA 12.6 版本)
python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

# 安装 PaddleOCR
python -m pip install -U "paddleocr[doc-parser]"

注意:需要 PaddlePaddle 3.2.1 及以上版本。macOS 用户建议使用 Docker 环境。

使用

PaddleOCR-VL-1.5 提供了三种使用方式,覆盖从入门到进阶的全场景需求。

方式一:命令行直接用

最简单的方式,一行命令搞定:

代码语言:javascript
复制
paddleocr doc_parser -i your_document.png

支持本地图片、PDF 文件,甚至网络图片 URL。

方式二:Python API

更灵活的调用方式:

代码语言:javascript
复制
from paddleocr import PaddleOCRVL

pipeline = PaddleOCRVL()
output = pipeline.predict("your_document.png")

for res in output:
    res.print()                        # 打印结果
    res.save_to_json(save_path="output")      # 保存为 JSON
    res.save_to_markdown(save_path="output")  # 保存为 Markdown
方式三:vLLM 高性能推理

需要高并发场景?可以用 Docker 启动 vLLM 服务:

代码语言:javascript
复制
docker run \
    --rm \
    --gpus all \
    --network host \
    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest-nvidia-gpu \
    paddleocr genai_server --model_name PaddleOCR-VL-1.5-0.9B --host 0.0.0.0 --port 8080 --backend vllm

然后通过 API 调用:

代码语言:javascript
复制
from paddleocr import PaddleOCRVL

pipeline = PaddleOCRVL(
    vl_rec_backend="vllm-server", 
    vl_rec_server_url="http://127.0.0.1:8080/v1"
)
output = pipeline.predict("your_document.png")
方式四:Transformers 直接加载

如果你更习惯 Hugging Face 的生态,也可以用 transformers 直接推理:

代码语言:javascript
复制
from PIL import Image
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText

model_path = "PaddlePaddle/PaddleOCR-VL-1.5"
image = Image.open("test.png").convert("RGB")

model = AutoModelForImageTextToText.from_pretrained(
    model_path, 
    torch_dtype=torch.bfloat16
).to("cuda").eval()

processor = AutoProcessor.from_pretrained(model_path)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "OCR:"},  # 可选:'Table Recognition:', 'Formula Recognition:', 'Spotting:', 'Seal Recognition:'
        ]
    }
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)
result = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:-1])
print(result)

注意:需要 transformers v5.0.0 及以上版本。

性能实测

根据官方公布的数据:

OmniDocBench v1.5 测试结果

OmniDocBench v1.5 性能对比
OmniDocBench v1.5 性能对比

OmniDocBench v1.5 性能对比

  • 整体准确率:**94.5%**(SOTA)
  • 表格识别:SOTA
  • 公式识别:SOTA
  • 文本识别:SOTA
  • 阅读顺序:SOTA

Real5-OmniDocBench 真实场景测试(这是官方新发布的测试集,专门测试恶劣场景):

Real5-OmniDocBench 真实场景测试
Real5-OmniDocBench 真实场景测试

Real5-OmniDocBench 真实场景测试

  • 扫描场景:SOTA
  • 倾斜场景:SOTA
  • 弯曲场景:SOTA
  • 屏幕拍摄:SOTA
  • 光照不均:SOTA

全是 SOTA,就问你服不服?

推理性能:在单张 A100 上,批量处理 512 页 PDF 文档,端到端推理速度也是遥遥领先。

推理性能对比
推理性能对比

推理性能对比

真实场景效果展示

光说不练假把式,来看看 PaddleOCR-VL-1.5 在各种恶劣场景下的实际表现:

光照不均场景识别效果
光照不均场景识别效果

光照不均场景识别效果

倾斜文档识别效果
倾斜文档识别效果

倾斜文档识别效果

屏幕拍摄识别效果
屏幕拍摄识别效果

屏幕拍摄识别效果

扫描件识别效果
扫描件识别效果

扫描件识别效果

弯曲变形识别效果
弯曲变形识别效果

弯曲变形识别效果

文本定位能力展示
文本定位能力展示

文本定位能力展示

印章识别能力展示
印章识别能力展示

印章识别能力展示

在线体验

不想本地部署?官方提供了在线 Demo:

🔗 Hugging Face Spaces:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo

🔗 飞桨星河社区:https://aistudio.baidu.com/paddleocr(还支持 API 调用和 MCP 服务)

总结

PaddleOCR-VL-1.5 是一个非常值得关注的开源项目,尤其适合以下场景:

推荐使用

  • 需要处理扫描件、拍照文档等低质量图像
  • 需要识别表格、公式、印章等复杂元素
  • 对模型大小和推理速度有要求(0.9B 超紧凑)
  • 需要多语言支持(中英 + 藏文 + 孟加拉语)

可能的不足

  • 目前 transformers 方式只支持元素级识别,页面级解析还是推荐官方方法
  • macOS 用户需要 Docker 环境
  • 需要 GPU 环境运行效果最佳

和 DeepSeek-OCR 相比

  • PaddleOCR-VL-1.5 在真实场景鲁棒性上明显更强
  • 模型更小(0.9B vs 7B+),部署成本低
  • 多任务能力更全面(印章识别、文本定位等)

总的来说,百度这次用 PaddleOCR-VL-1.5 证明了一件事:在 OCR 领域,工程能力和场景理解比堆参数更重要。0.9B 参数干翻百亿级大模型,这波百度赢麻了。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 亮点
  • 安装
  • 使用
    • 方式一:命令行直接用
    • 方式二:Python API
    • 方式三:vLLM 高性能推理
    • 方式四:Transformers 直接加载
  • 性能实测
  • 真实场景效果展示
  • 在线体验
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档