我使用谷歌驱动api来存储和检索pdf文件。我想使用搜索参数查询这些文件。
但在我开始实施之前。我想知道google如何处理大型pdf文件的索引。(600+pages 25Mb+)我想知道基于文本的pdf。(他们不需要ocr)
我尝试了一些搜索驱动器网站,但它并不总是有效的。
我想知道这些是否有任何限制,以及它们是什么。
发布于 2012-08-31 12:54:24
根据此页为PDF与OCR:
图像(.jpg、.gif、.png)和PDF文件(.pdf)的最大大小为2MB。对于PDF文件,在搜索要提取的文本时,我们只查看前10页。
和此页用于PDF的文本:
您可以通过以下方式搜索PDF和图像文件中的文本:
理论上,您应该能够搜索任何文本文档或基于文本的PDF的前100页,您已经上传。您还可以搜索在驱动器上的任何图片PDF的前十页上找到的文本。
https://stackoverflow.com/questions/12161714
复制相似问题