我正在捆绑一个PDF转换成一个图像,以便我可以OCR它。但在转换过程中,质量正在下降。
使用Python-和/将PDF转换为映像(JPG/PNG)似乎有两种主要方法。
#pdf2image (altering dpi to 300/600 etc does not seem to make a difference):
pages = convert_from_path("page.pdf", dpi=300)
for page in pages:
page.save("page.jpg", 'JPEG')
#Image
我在PHP中使用fopen来打开从tesseract OCR提取的文件。返回的文本包含<<<<<<,fopen读取,直到找到第一个<字符,然后停止。
从OCR返回的文件:
P<dsdasdasd<<dasd<adsda<dsada<<<<<<<<<<ec<
dasdasdsdasdasdasdasd<<<<<<<<<<<<<<06
£ y
来自fopen的回声
P
如果我查
我一直在尝试从程序中截图数据,这样我就可以将其转换为文本,因为我想让整个过程自动化。但出于某种原因,虽然我在多个地方设置了time.sleep(),但同时拍摄了四个单独的屏幕截图-但是当我做同样的事情,但没有运行程序时(只有桌面可见),屏幕截图是单独拍摄的。在程序内部如何延迟截图? 这是完整的代码(很抱歉代码混乱): import os
import pyautogui as pag
import time
#import pyscreenshot as pscr
from PIL import ImageGrab as scr
from datetime import datetime
f