pdf ocr x - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

、

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", &qu

浏览 48提问于2021-06-02得票数 0

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.pdf; # Créer le fichier PDF avec OCR ocrmypdf --language fra

浏览 2提问于2020-04-20得票数 1

1回答

从tika-server获取hocr输出

、、、

我正在使用对PDF文件执行OCR操作。在和之后，我尝试使用X-Tika-OCR... headers配置Tesseract。我使用的curl命令： "http://tika-server:8081/tika" \ -H "Content-Type: application&#

浏览 5提问于2020-01-09得票数 2

回答已采纳

1回答

运行OCRmyPDF时出现的问题: WinError2和无效版本号

、、、、

(image_path) raw_text_from_ocr_pdf = get_text_from_pdf()/temp_pdf_file_name.pdf", new_pdf_file_name="pdf_w_ocr.pdf"): o

浏览 3提问于2021-06-14得票数 1

回答已采纳

1回答

Python PyMuPDF searchFor方法不起作用

、、、、

我正在使用python中的PyMuPDF库来搜索PDF文档中的特定文本，然后将其突出显示。pdf_document = fitz.open(pdf_path) for i in range(len(page_num)):PDF文档图像

浏览 1提问于2018-12-21得票数 0

1回答

为文件管理器上下文菜单编写tesseract

、、、

然而，这一次，我使用Dolphin中的tesseract对OCR选定的图像文件(S)进行了一个非常简单的循环，它可以在许多其他脚本中工作： for filename in "${@}"; do

浏览 0提问于2022-02-25得票数 0

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

如何修复在Apache Tika for Python中解析的中文PDF以正确读取字符？

、、、

我有一个下载的PDF在中国，我想提取文本从使用提卡+ Python (原始链接到完整的PDF可以找到，或提取的样本页面可以找到)。当我运行以下代码时file_data = parser.from_fileÆ Éª £¬ £Ì £® £È £® 我创建

浏览 1提问于2020-09-07得票数 0

1回答

我正在尝试编写一个简单的bash脚本来检查一个pdf是否需要OCR，它使用的是与Xpdf一起分发的pdftotext可执行文件。如果pdftotext没有输出任何文本，那么PDF需要是OCR的，问题是，如果一个PDF还没有输出，pdftotext就会返回一个表单Feed字符(而不仅仅是一个空字符串)。这是我的密码： pdf_txt=$(pdftotext -q -l 5 '/Path/to/pdf/test.pd

浏览 2提问于2014-07-21得票数 2

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

1回答

Powershell脚本，foreach循环中的2x变量

我想使用ocrmypdf.exe，在这里我必须读取PDF的网络文件夹，并将其放在子文件夹中。ocrmypdf工作简单: ocrmypdf.exe$source = @(Get-ChildItem -Path 'X:\OCR\*.pdf') # <-- here aremy files, filtered for pdfs $destname = "X:\ocr\done" #destination-folder whe

浏览 1提问于2022-07-14得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

如何使用python的类型模块？

、

我的代码： source = 'fr'; target = 'en'; tess_lang = 'fr'for dirpath, dirs,()]: ocrmypdf.ocr(language = x, input_file = pdf, output_file = pdf.rsplit('', 1)[0]+&#

浏览 15提问于2019-12-31得票数 0

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

命令行有效，但使用output_type="pdf“时缺少文本层

最近，我从ocrmypdf 9.0.3/tesseract 4.x升级到了ocrmypdf 13.4.1/tesseract 5.1。当使用cremypdf9.x或13.x时，这在cli上起作用：但是，当我在应用程序中使用API时， ocrmypdf.ocr("path/to

浏览 2提问于2022-03-25得票数 0

1回答

更新多个列，使其与另一列相等

、

例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000000004 OCR0000000006 No 95

浏览 0提问于2014-03-22得票数 0

1回答

用PHP从PDF中解析表格

、、

所以我在考虑用PHP“导入”(上传和预处理/标准化数据)一个PDF标准格式的时间表。我已经尝试了几个库(smalot/pdfparser，gufy/pdftohtml-php，tecnickcom/tc-lib-pdf-parser和一些小类)来阅读PDF，但我得到的似乎都是简单的文本和至多X Y位置和段落内容。我目前正在尝试在a (x，y，content)中组织数据，但我真的在寻找一种在HTML / XML中获得类似于表的结构的方法。将PDF<

浏览 0提问于2018-06-19得票数 0

点击加载更多

带有图像的PDF文件的OCR

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

运行反引号/exec()时的PHP路径问题

检测景观格式的图像，并将其分割成两幅肖像。

从tika-server获取hocr输出

运行OCRmyPDF时出现的问题: WinError2和无效版本号

Python PyMuPDF searchFor方法不起作用

为文件管理器上下文菜单编写tesseract

在终端中运行命令，并在输出中包含输入名

如何修复在Apache Tika for Python中解析的中文PDF以正确读取字符？

bash -检查字符串变量是否等于表单提要

在r中的pdf上执行ocr时出错

Powershell脚本，foreach循环中的2x变量

更改windows批处理中的文件扩展名

如何使用python的类型模块？

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

命令行有效，但使用output_type="pdf“时缺少文本层

更新多个列，使其与另一列相等

用PHP从PDF中解析表格

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐