如何把图片转为文档?
你第一反应肯定是OCR!但是OCR都是收费的,而且都是针对特定领域。
聪明的小伙伴可能就要问了,如今大模型火热,能否让大模型来识别?
答案是可以的,但是目前多模态的大模型识别图片能力还是惨不忍睹,就算GPT-4V也是无法达到满意的准确率!
现在,你有新的选择了,Vary!
Vary,让你一键识别图片中的文本、公式、表格然后输出markdown格式可编辑的文件!
Vary是什么?
Vary是一种新视觉识别的方法!通过Vary+大模型的方式实现了文档级别的OCR或图表理解等。
这些任务需要密集且精细的视觉感知,而传统的CLIP风格的词汇在这些场景中可能效率低下,甚至遇到“词汇外”的问题。为了解决这些问题,Vary应运而生。
Vary通过两个阶段来生成和整合新的视觉词汇:首先设计一个词汇网络和一个小型解码器-仅有的变压器,通过自回归生成所需的词汇;
然后通过合并新词汇和原始词汇(CLIP)来扩展原始视觉词汇,使LVLMs能够快速获取新特征。与流行的BLIP-2、MiniGPT4和LLAVA相比,Vary在保持原始能力的同时,展现出更出色的细粒度感知和理解能力。
vary不仅仅是OCR!
vary最突出的特点是对表格和公式等识别!但是他本身是一种图像识别方法,结合大语言模型之后,就可以做到了多模态能力。那么多模态大模型的一些对图片推理它也是具备的。下面将展示一下他的各方面能力。
我们输入一个手机截图,让他识别其中的文字。
我们输入表格,让其识别。
还能识别截图中的歌词
除了识别图片内容,还能对图片内容推理。输入下面图片,让其分析哪里不正确。
小编总结
Vary方法通过扩展视觉词汇来解决大型视觉语言模型在特定任务上的局限性。通过设计词汇网络和自回归生成新词汇,然后将其与原始词汇合并,LVLMs能够快速适应新特征并提高细粒度感知和理解能力。这种方法在文档解析表现出色,并具有广泛的应用前景。
最后感慨,AI大模型的确在重塑各行各业的底层逻辑,这让很多领域迎来了新的机会!
代码地址:
https://github.com/Ucas-HaoranWei/Vary
体验网址:
http://region-31.seetacloud.com:22701/
论文地址:
https://arxiv.org/pdf/2312.06109.pdf
领取专属 10元无门槛券
私享最新 技术干货