我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。
我需要对它们执行OCR处理,但我需要使用bash脚本重新格式化它们。
我可以用pdfimages从PDF中提取图像,将它们与img2pdf放在一起,用ocrmypdf执行OCR处理。
但是,我很难用的实用程序来检测它们的方向,如果必要的话,在纵向模式下将它们分割成两幅图像。你应该知道,并不是所有的扫描都是相同的大小和肖像和景观图像混合在同一个PDF中。
从现在开始,我只有一个脚本的开头:
#!/bin/bash
for i in *.pdf;
do
# Créer le fichier PDF avec OCR
我有一个PDF,我试图让Tika去解析。PDF不是OCR。我的机器上安装了Tesseract。
我使用ImageMagik将file.tiff转换为file.pdf,所以我正在解析的tiff文件是从PDF直接转换出来的。
Tika分析TIFF没有问题,但返回PDF的“无”内容。怎么回事?我用的是Tika 1.14.1,tesseract 3.03,轻子-1.70
这是密码..。
from tika import parser
# This works
print(parser.from_file('/from/file.tiff', 'http://localhost
我有一个png图像,我改进了更好的tesseract OCR质量,然后我需要从原始图像搜索pdf。 我可以使用以下python代码通过tesseract从改进的图像创建可搜索的pdf: f = open("programme.pdf", "w+b")
file = sys.argv[1]
black_and_white = create_black_and_white(image=file, threshold=150) # function converting the image to black and white with some filterin
我正在尝试使用perl从扫描的PDF中获取文本,所以我在perl中使用了PDF::OCR2模块,但我无法安装此模块,安装Image::OCR::Tesseract模块失败,我使用的是CentOS7,这是我在安装过程中的错误。
one dependency not OK (Image::OCR::Tesseract); additionally test harness failed
/usr/bin/make test -- NOT OK
//hint// to see the cpan-testers results for installing this module, try:
我在uipath是新的,我使用PDF活动来读取与Google的Pdf文本,因为我想得到包含图像的pdf文本。
首先,我只使用Pdf文本,它工作得很好。然后,我使用Pdf与OCR,然后它显示了这个错误。
但是当我运行它时,它给出了一个错误:-
"Google OCR : Error performing OCR: TessErrorLoadEngine"
Please help me to read the Pdf file.
我想在Mac上使用开源命令行工具对OCR进行批处理,大约5800 PDF (每个PDF包含上一个问题的2到6页之间)。这次冒险的主要建议是,我想从所有这些PDF的文本中检索尽可能可靠的名字(最重要的是姓氏)。就是一个如何看待问题的例子。
在这一点上,我不知道具体如何进行。你怎么做?
我想首先将所有多页PDF转换为单个页面映像,作为png、jpg或tif,并使用以下命令将与一个PDF相关的所有图像移动到相应的文件夹中:
time for i in *.pdf; do mkdir "${i%.pdf}"; convert -colorspace GRAY -resize 3000x
我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。
我想(每天)自动化这个过程:
开放Acrobat X Pro
批处理/ PDF -扫描中的PDF文件,并将"-OCR“追加到文件名
在OCR之后,将文件移动到/PDF/
删除PDF原始文件中的/PDF-扫描/
我应该用自动售货机吗?有脚本可以做到这一点吗?它必须与iCal的重复事件联系在一起吗?
谢谢。
用于OS的最新版本的ABBYY FineReader现在支持AppleScript。我尝试编写一个简单的脚本,对给定的pdf文档执行OCR,并将其另存为pdf文档以使其可搜索。不幸的是,我是AppleScript的初学者,不能让它工作。我找不到更多用于编写ABBYY FineReader脚本的文档或示例。
我设法打开了FineReader的字典,它有这样的功能:
export to pdf v : Converts the current document to a PDF file. If FineReader is running in a Sandbox, the file will b
我如何概括或中和base_url()和getcwd()之间的差异?
在视图中,我希望同时显示一个内联PDF-查看器(使用<object src=''></object>)和OCR‘’ed输出。这两个文件都需要相同的源文件,该源文件位于project/public/corpus/<some_id>/file.pdf ( project是CodeIgniter根目录)中。
控制器中的代码可以概括如下:
/**
* Fetch the path to the pdf of the document (OCR is preferre