在tika配置xml文件中,但这意味着它永远不会运">
我使用tesseract运行tika-server-1.23.jar,并通过php使用curl从文件中提取文本。有时候,使用OCR运行需要太长时间,所以我偶尔希望排除运行中的tesseract。我可以通过插入
<parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
在tika配置xml文件中,但这意味着它永远不会运行tesseract。
我是否可以强迫tika服务器通过curl选择性地在每个请求中跳过tesseract,如果是的话,如何跳过?
我有一个解决方案,我运行两个tika服务器实例,每个实例都有一个不同的配置文件,侦听不同的端口,但这是次优的。
提前谢谢。
发布于 2020-12-04 14:11:34
您可以使用PDF文件的头设置OCR策略,其中包括一个选项not OCR:
curl -T test.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: no_ocr"
其他文件类型并没有真正的等价,但是有一个类似的头前缀调用equivalent,允许您在任何文件类型上使用时设置TesseractOCRConfig实例上的配置。
在您的场景中,您有一些可能感兴趣的选项:
因此,例如,如果您想跳过一个文件,您可以将最大文件大小设置为0,这意味着它将不会被处理:
curl -T testOCR.jpg http://localhost:9998/tika --header "X-Tika-OCRmaxFileSizeToOcr: 0"
或者设置到/dummy的路径
curl -T testOCR.jpg http://localhost:9998/tika --header "X-Tika-OCRtesseractPath: /dummy"
当然,如果您愿意,也可以在PDF文件中使用这些头文件。
https://stackoverflow.com/questions/65092085
复制