首先,我知道很多地方都在讨论这个问题。我所读到的一半是过时的,错误的,或者只是与我的情况无关。
这就是为什么我要把它带给社会,因为我知道这个问题会有答案。
问:我有一个大约70,000页的PDF文档目录(在线是理想的)(文件范围从20-100页,加起来约70,000页)。
我正在寻找一个方法,脚本或想法,为最简单的方式搜索这些PDF产品。PDF都有一个文本层,它是由Acrobat中的OCR创建的。
的任何想法,无论它们是精心设计的还是创造性的,都是非常受欢迎的。
发布于 2010-08-05 07:07:25
发布于 2010-08-05 07:03:09
使用Lucene或Sphinx这样的搜索引擎对PDF进行索引和标记。Zend框架既有读取和写入PDF文件的组件,也有Lucene实现。
发布于 2010-08-05 07:04:08
XPDF有一个名为pdftotext的实用程序,它通常安装在linux发行版上。我将创建一个工具,使用该工具为文档中的单词创建索引。您可以将索引存储在数据库中,然后编写相应的搜索。
这将占用更多的空间,但在搜索结果中添加一个上下文句子也很简单。
https://stackoverflow.com/questions/3416004
复制