我试图在PDF文件中找到一些文本,但结果并不准确!举个例子,我有两个PDF文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件?PDF文件之间有什么区别吗?在一个PDF中,我只有文本,而其他PDF是文本和图像,这是从扫描页面。陷阱是什么?
P.S.:这两个PDF文件位于同一个目录中。
发布于 2016-08-16 20:37:48
是的,带有文本的PDF文件和带有扫描图像的PDF文件是不同的。在基于图像的pdf中,计算机只看到图像,在这些图像中识别文本需要在PDF引擎中内置额外的功能,比如光学字符识别。由于计算机可以直接识别文本,因此带有文本的PDF更容易被计算机搜索。
https://askubuntu.com/questions/813069
复制相似问题