首页
学习
活动
专区
圈层
工具
发布

MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评(LLM & RAG数据准备)

他会存在将Latex公式识别出错的情况,通常是多了一个“\m”,如图 删除\m,就会正常,而Doc2X通常很少出现这种情况,我可以预先告诉你,Doc2X是这4个中最好的,但是他也有一些缺陷,我会在后文说...并且MinerU不能像Doc2X那样把表格图表OCR出来转为html、markdown表格这些结构化数据,它仅仅截图保存在本地。...llm_aided_ocr 这是一个新项目,他使用大模型去增强ocr的处理结果,将一些不好的结果进行修正,这看起来是一个很有前景的工作。...总的来说,我会使用Doc2X去完成我的工作,MinerU可以期待它接下来的更新,llm_aided_ocr可能需要我们进一步自己完善,OmniParse也是一个不错的项目,我挺欣赏他的多媒体形式文件支持的...:https://github.com/adithya-s-k/omniparse [3] llm_aided_ocr :https://github.com/Dicklesworthstone/llm_aided_ocr

7.7K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Doc纯文本迁移到Doc表格中

    踩坑记录 起初是这样想的: 先拿到文档的内容:因为给我的文档是.doc后缀的文件,然后通过一通readFile操作,发现读出来一堆文字乱码。索性先停掉了这部分工作。...又找了很久,发现了一个原本忽视的内容:.docx文件,作为取代.doc的格式,他的本质是一个zip文件。...任何能够打开DOC文件的文字处理软件都可以将该文档转换为DOCX文件,docx文件比doc文件所占用空间更小,docx格式的文件本质上是一个XML文件。 docx格式的文件本质上是一个ZIP文件。...可以直接读取到doc文档内容(在此感谢大佬) 通过@gmr-fms/word-extractor的支持,可以拿到整个文档,通过正则筛选出了我想要的字段内容,然后将内容替换给document.xml。.../doc/' + i)).then(doc => { var body = doc.getBody(); var number = body.match(/第.

    1.8K20

    OCR Tool PRO Mac(OCR光学字符识别)

    推荐这款OCR光学字符识别工具OCR Tool PRO,以卓越的准确性和速度从图像和 PDF 中提取文本。...抓取图像 + PDF + 抓取屏幕区域 + 从 iPhone/iPad 捕获图像 + 设置 + OCR + 将文本复制到剪贴板 + 使用文本文件和 PDF 导出!...OCR Tool PRO Mac图片OCR Tool PRO版软件功能OCR 工具允许在选定区域中捕获具有任何文本的屏幕的一部分。它可以立即被识别并复制到剪贴板。...OCR 工具是一种简单、易于使用、超级高效且尊重您的隐私(不会从您的设备中获取数据)。...主要特点抓取屏幕区域以实现超高效的 OCR多次抓取屏幕区域以快速工作从 iPhone/iPad 和扫描仪捕获图像以进行即时 OCR 并将结果复制到剪贴板。

    20.1K20

    ES文档:文档操作_doc(7.9.2)

    _type": 在Elasticsearch 7.x版本之后,通常为"_doc",表示默认文档类型。"_id": 这是文档的唯一标识符,用于在索引中唯一标识文档。在这里,文档的ID是"1"。"...使用PUT请求添加文档时必须携带文档id,否则会出错使用POST请求添加文档可以不携带文档id,会自动创建一个文档idPOST goboy-blog/_doc{ "title":"我的第二个文档",..._type": 在Elasticsearch 7.x版本之后,通常为"_doc",表示默认文档类型。"_id": 这是文档的唯一标识符,用于在索引中唯一标识文档。在这里,文档的ID是"2"。"...GET goboy-blog/_doc/1查看索引中所有文档内容GET goboy-blog/_search判断文档是否存在根据id判断指定文档是否存在Head goboy-blog/_doc/1Head...删除文档根据id删除语法:DELETE {index}/_doc/{id}删除一个id为 VF9xiosBWWxO5_dDHEpm 的文档DELETE goboy-blog/_doc/VF9xiosBWWxO5

    1.2K30
    领券