首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF中提取文本的工具是什么?

从PDF中提取文本的工具是什么?
EN

Software Recommendation用户
提问于 2016-05-31 10:11:36
回答 4查看 736关注 0票数 1

我想要一个工具或库,可以提取PDF文档中的文本,以便将其保留在文本文档中。不需要保留格式,尽管我希望能够识别它,以便确定文档的各个部分。(例如,编写一条规则,说明H1的每个实例都是一个新部分的开始。)同样可以接受的是将PDF提取成诸如ODF或DOCx的格式,其中包括格式和图片。

PDFParser这样的工具只能在不受保护的情况下读取文本。

虽然免费工具是首选,但我也愿意支付。

如果重要的话,使用它的项目是用PHP编写的,使用Laravel。

EN

回答 4

Software Recommendation用户

发布于 2016-10-28 21:38:21

为此,我建议查看LEADTOOLS文档成像SDK。这个SDK有几种不同的方法从PDF中提取文本,包括解析向量PDF和在PDF中的光栅数据上运行OCR。没有任何本地PHP支持,但是使用.NET接口,您可以使用文档转换器从两种类型的PDF文件中获取文本。

下面是一些示例代码:

代码语言:javascript
复制
using (DocumentConverter documentConverter = new DocumentConverter())
{
   var inFile = Path.Combine(ImagesPath.Path, @"Leadtools.pdf");
   var outFile = Path.Combine(ImagesPath.Path, @"output.txt");
   var format = DocumentFormat.Text;
   var jobData = DocumentConverterJobs.CreateJobData(inFile, outFile, format);
   jobData.JobName = "conversion job";
   var job = documentConverter.Jobs.CreateJob(jobData);
   documentConverter.Jobs.RunJob(job);
}

免责声明:我是写这个图书馆的公司的员工。

票数 1
EN

Software Recommendation用户

发布于 2016-08-06 18:52:18

在工作中,我们在放弃一些免费工具之后,在几个项目中使用Seta抽取器库。因此,如果您愿意付费,您可以首先评估库(免费下载)。不会做你的图像提取的愿望,但你可以很容易地执行短语搜索,将文本提取限制在边框。挺灵活的。需要PHP 5.3

票数 0
EN

Software Recommendation用户

发布于 2016-11-28 14:04:11

我强烈推荐大家都喜欢(U)的礼仪eBook管理计划:口径

量程支持将许多输入格式转换成多种输出格式。它可以将下面列表中的每种输入格式转换为每种输出格式。输入格式: AZW、AZW3、AZW4、CBZ、CBR、CBC、CHM、DJVU、DOCX、EPUB、FB2、HTML、HTMLZ、LIT、LRF、MOBI、ODT、PDF、PML、PDB、PML、RB、RTF、SNB、TCR、TXT、TXTZ输出格式: AZW3、EPUB、DOCX、FB2、HTMLZ、OEB、LIT、MOBI、PDB、PMLZ、RB、PDF、RTF、SNB、TXT、TXTZ、ZIP

它还有许多有用的特性和插件。我不会再用其他东西了。

票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/32503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档