有些时候,我们需要将PDF转换成Markdown格式,但是通常情况下是无法直接转的。一般来说,我们需要先将PDF文档先OCR识别一下,然后再转换成markdown。需要注意的是,由于 PDF 格式的复杂性和多样性,有一些特殊的符号以及公式 往往在处理的时候会出问题。
今天要介绍的项目是marker,就可以很好的解决这个问题,marker是一款基于深度学习模型的将PDF转换成Markdown格式的工具。官方github地址如下:https://github.com/VikParuchuri/marker 。目前已经拥有9.2k star。
marker的原理是利于深度学习模型,检测页面布局,阅读顺序,然后格式化文本块并且对完整的文本再进行处理。这里说一下marker的特点:
pip3 install torch torchvision
pip3 install marker-pdf
更详细的使用文档,可以参考github上的文档:https://github.com/VikParuchuri/marker?tab=readme-ov-file 。另外文档上也提供了marker 和nougat 的对比测试结果 创作不易,如果您觉得这篇文章对你有帮助,不妨给我点个赞,这将是我继续分享优质内容的动力。