我需要构建一个工具,从pdf中获取文本和图像,并将其呈现在响应性的HTML文件中。我不需要保持元素的位置,但排序很重要。
我面临的问题是从pdf文件中提取文本和图像。
我尝试过一些将pdf转换成html的工具,但是这些工具更多的是面向文件的视觉再现(绝对定位,段落分割成行)。我需要一些东西为我提供一个段落和图像的饲料。
有什么想法吗?我也不介意看付费工具。
谢谢!
发布于 2016-12-23 13:59:25
如果商业SDK是您的选择,您可以查看LEADTOOLS文档转换器。免责声明:我是本产品的员工。
LEADTOOLS的文档转换器SDK允许您转换到任何文档或光栅图像格式,如:
还有一个免费60天评估,这样你可以在购买之前试一试。
免责声明:我是本产品的员工。
发布于 2017-03-02 12:11:35
Apache应用程序可以从PDF文档中提取测试和图像。它是免费的软件,易于使用。
发布于 2016-12-14 07:37:53
有很多工具是用来将PDF转换成HTML的,你真的需要自己构建一个吗?还是你在找什么能做你想做的事?要求有点模糊。
如果你想要构建一些东西,帮你自己一个忙,得到一个可靠的SDK与PDF一起工作,并通过提取文本和图像。有许多SDK可以帮助您(按公司名称排序)。
如果您正在寻找一个为您执行PDF到HTML转换的工具,根据您所要求的内容,您应该可以获得90%的路径,请查看我们的PDF炼金术士产品。它不使用绝对定位,并按读取顺序重新构造文本(即使这不是PDF中存储的方式)。另一个选项是PDFix,我不记得他们是否使用绝对定位(或者是否有关闭绝对定位的选项)。
https://softwarerecs.stackexchange.com/questions/38115
复制相似问题