
就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和理解商业信息的方式。
LightOnOCR 不仅仅是另一个名字里带有 OCR 的模型。它实际上是一个端到端的模型。它没有分割或文本检测阶段,而是联合学习所有步骤。这使得它完全可微分,意味着您可以针对任何特殊的数据集(收据、法律 PDF、学术论文)对其进行整体微调。这种简洁性正是其优势所在:更少的组件,更少的故障风险。
它本质上是一个紧凑的单参数模型,但它采用了重要的组件:
两者结合起来,它就像一个小型通用型 VLM,但针对 PDF、扫描文档和屏幕截图进行了精细调整。
这部分简直令人难以置信:LightOnOCR在单个 H100 GPU 上每秒可处理 5.71 页。这相当于每天近 50 万页。

速度提升显著:
成本极低:每处理1000页文档成本低于0.01美元
处理能力强大:在单张H100 GPU上每秒处理5.71页,每日可处理约49.3万页
与依赖复杂非训练流程的最新方法不同,LightOnOCR-1B采用完全端到端可训练架构,轻松适配特定语言或领域。模型结合了原生分辨率视觉转换器和精简语言主干,通过高质量视觉语言模型蒸馏而得。

放弃冗长的HTML树,LightOnOCR选择输出轻量级Markdown:
这是结构与简洁的完美平衡。
LightOnOCR还提供另外两个变体版本,分别具有32k和16k修剪词汇表,为欧洲语言提供额外加速,同时保持几乎相同的准确性。

词汇表修剪效果显著:
在企业应用场景中,速度不是奢侈品,而是必需品。LightOnOCR-1B能够在创纪录时间内处理和构建海量文档集合,让企业轻松索引和解锁多年积累的非结构化数据。
集成到LightOn的私有企业搜索中后,它能够将组织的历史转变为活生生的、可搜索的智能源。简而言之:我们理解你的过去,赋能生成式AI推理、总结并基于企业全部知识库采取行动。
部署过程异常简单:
# 安装最新vllm
uv pip install -U vllm \\
--torch-backend=auto \\
--extra-index-url https://wheels.vllm.ai/nightly \\
--prerelease=allow
# 启动服务器,立即享受高效OCR!
vllm serve lightonai/LightOnOCR-1B-1025 \\
--limit-mm-per-prompt '{"image": 1}' \\
--async-schedulingLightOnOCR实现了完美三重奏:
它占据了OCR的帕累托前沿——在速度、成本和准确性之间找到最佳平衡。
最令人振奋的是,模型权重和数据集都将在宽松许可证下开源。这或许将推动开源OCR最终赶上专有系统。
演示网址:https://huggingface.co/spaces/lightonai/LightOnOCR-1B-Demo
开源地址:https://huggingface.co/lightonai/LightOnOCR-1B-1025从数学公式密集的学术论文,到老旧扫描文档,从多栏微小文字排版,到数字密集型表格,LightOnOCR-1B在各种复杂场景下都表现出色,准确还原文档内容和结构。
LightOnOCR-1B的发布标志着小型端到端模型在OCR领域的巨大潜力,为OCR模型建立了新的帕累托前沿。这不仅是技术的进步,更是企业知识管理方式的革命。
数字化时代有OCR,智能时代有LightOnOCR-1B——这座连接商业文档与机器理解的桥梁,如今比以往任何时候都更加快速、智能。
立即体验LightOnOCR-1B,让您的企业知识库焕发新生!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。