我正在使用pytesseract创建可搜索的pdf。由于保持图像的原始外观很重要,因此我希望使用原始图像创建PDF。但是,为了改善OCR结果,我需要对图像进行一些预处理(纠偏、二值化等)。
以下是我如何使用处理后的图像获得pdf。
pdf = pytesseract.image_to_pdf_or_hocr(adaptive_threshold, lang="frk+deu", config=config)
那么,我如何应用alto_xml输出,例如:
alto= pytesseract.image_to_alto_xml(adaptive_threshold, lang="frk+deu", config=config)
并将其转换为pdf?像这样:
original_image + alto ->转换为可搜索的pdf。
谢谢!
发布于 2020-11-13 14:56:40
在pyhton中无法直接做到这一点,因为pytesseract只是Tesseract OCR命令行版本的python包装器
https://stackoverflow.com/questions/64555910
复制