首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何从pdf文件中提取图像和文本?

如何从pdf文件中提取图像和文本?
EN

Software Recommendation用户
提问于 2016-12-13 07:15:06
回答 4查看 271关注 0票数 1

我需要构建一个工具,从pdf中获取文本和图像,并将其呈现在响应性的HTML文件中。我不需要保持元素的位置,但排序很重要。

我面临的问题是从pdf文件中提取文本和图像。

我尝试过一些将pdf转换成html的工具,但是这些工具更多的是面向文件的视觉再现(绝对定位,段落分割成行)。我需要一些东西为我提供一个段落和图像的饲料。

有什么想法吗?我也不介意看付费工具。

谢谢!

EN

回答 4

Software Recommendation用户

发布于 2016-12-23 13:59:25

如果商业SDK是您的选择,您可以查看LEADTOOLS文档转换器。免责声明:我是本产品的员工。

LEADTOOLS的文档转换器SDK允许您转换到任何文档或光栅图像格式,如:

  • Adobe Acrobat PDF和PDF/A Microsoft Office DOC/DOCX、XLS/XLSX、
  • PPT/PPTX、PST、EML、MSG和XPS格式的CAD格式,如DXF、
  • DWG,DWF TIFF,JPEG,PNG,EXIF,BMP和数百个光栅
  • 图像格式纯文本、RTF、HTML、MOBI、ePUB和更多IBM,
  • MO:DCA、IOCA和PTOCA

还有一个免费60天评估,这样你可以在购买之前试一试。

免责声明:我是本产品的员工。

票数 1
EN

Software Recommendation用户

发布于 2017-03-02 12:11:35

Apache应用程序可以从PDF文档中提取测试和图像。它是免费的软件,易于使用。

https://pdfbox.apache.org/1.8/commandline.html

票数 1
EN

Software Recommendation用户

发布于 2016-12-14 07:37:53

免责声明:我作为产品经理为Datalogics工作,负责构建这样的产品。

有很多工具是用来将PDF转换成HTML的,你真的需要自己构建一个吗?还是你在找什么能做你想做的事?要求有点模糊。

如果你想要构建一些东西,帮你自己一个忙,得到一个可靠的SDK与PDF一起工作,并通过提取文本和图像。有许多SDK可以帮助您(按公司名称排序)。

如果您正在寻找一个为您执行PDF到HTML转换的工具,根据您所要求的内容,您应该可以获得90%的路径,请查看我们的PDF炼金术士产品。它不使用绝对定位,并按读取顺序重新构造文本(即使这不是PDF中存储的方式)。另一个选项是PDFix,我不记得他们是否使用绝对定位(或者是否有关闭绝对定位的选项)。

票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/38115

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文