PDF-Extract-Kit
高质量PDF内容提取的综合工具包,集成多种模型实现PDF布局检测、公式检测与识别、光学字符识别,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,即使在扫描模糊或有水印的情况下也能保持高鲁棒性
Github地址
整体介绍
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:
• 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
• 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
• 公式识别:使用UniMERNet进行公式识别;
• 光学字符识别:使用PaddleOCR进行文本识别;
注意:由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测[5]和公式检测[6]部分。对于公式识别,UniMERNet方法可以媲美商业软件,在各种类型公式识别上均匀很高的质量。对于OCR,我们采用PaddleOCR,对中英文OCR效果不错。
领取专属 10元无门槛券
私享最新 技术干货