批量图像pdf ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

带有图像的PDF文件的OCR

ocr、tesseract、apache-tika

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？即使它要经过两次，一次是笔直的文本，另一次是图像。

浏览 4提问于2020-12-31得票数 1

回答已采纳

2回答

如何将pdf格式转换为eBook格式

pdf、ebooks

是否有方法将PDF文档转换为eBook格式，如epub、azw或mobi？我正在寻找一个应用程序，这是快速的转换。我刚试过口径。10分钟后，甚至没有达到2%的转换。所以请不要有口径。CLI是首选。

浏览 0提问于2013-04-26得票数 9

回答已采纳

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

apache-tika、tika-server

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_ocr" 响应

浏览 48提问于2021-06-02得票数 0

2回答

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。最先进的OCR解决方案是将图像转换为可搜索的PDF，还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)？

浏览 0提问于2018-05-25得票数 0

1回答

如何使用doc取器在PDF文件中搜索文本？

pdf、search、text

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

将多个PDF文件转换为文本(R语言)

r、pdf、dplyr、tesseract

('myfile_1.pdf', dpi = 600)cat(text)#import and convert 1st file pngfile_1 <- pdftools::pdf_convert('myfile_1.pdf', dpi =

浏览 4提问于2021-07-31得票数 0

3回答

将pdf的内容读取为字符串

ios、swift、pdf

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil) 但是，我认为这是无

浏览 14提问于2015-08-02得票数 0

回答已采纳

2回答

如何在pdf文件中复制图像中的文本？

pdf、images、text

我可以使用evince文档查看器使用文本查看pdf图像，但是我不能选择图像中的文本来复制和粘贴。如何在pdf文件中从图像中复制文本？

浏览 0提问于2014-09-19得票数 0

1回答

如何像Chrome浏览器那样使用Python从PDF中提取文本？

python、pdf、text-extraction

我正在尝试从pdf文件中提取文本(类似于表单)。目前，我在Chrome上打开文件，选择/复制所有文本，将其粘贴到txt文件中，然后使用Python将其处理为CSV。Chrome让我的数据非常结构化和统一，这样pdf的每一页都会产生类似的文本块，让我可以轻松地处理它。我试图直接从pdf中提取文本，以将其处理为CSV格式，但由于原始pdf的生成方式，我总是得到一些混乱的结果。我尝试过pdfminer和pyPdf2，但当表单在某些字段中缺少值时，结果会变得混乱。

浏览 35提问于2021-06-16得票数 0

3回答

如何使用任何Java库使现有的PDF文本可搜索？用OCR

java、ocr、pdfbox

如何使用PDFBox将OCR应用于pdf？如何使pdf文本可编程搜索使用pdfbox，我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗？

浏览 8提问于2014-04-04得票数 0

回答已采纳

1回答

如何从PDF中提取音乐符号？

pdf、extract、ghostscript、music-notation

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

1回答

如何区分PHP中的“文本”PDF和“图像”PDF？

php、pdf、tesseract、ghostscript、xpdf

我最近建立了一个Linux服务器，可以使用Xpdf的一部分pdftotext命令将基于文本的Xpdf转换为文本，还可以使用gs (Ghostscript)和tesseract命令的组合将基于图像的Xpdf当我已经知道PDF是基于文本还是基于图像时，这两种解决方案都能很好地工作。但是，为了自动化将许多PDF转换为文本的过程，我需要能够判断PDF是基于文本的还是基于图像的，这样我就知道在PDF上运行哪一组进程。在PHP中有没有任何方法来分析一个PDF并判断

浏览 5提问于2016-09-23得票数 1

回答已采纳

2回答

在WinForm中寻找OCR库

c#、ocr、vb.net

是否有任何免费/付费的OCR库能够捕获PDF格式的发票数据？需要有一个低的错误率。我们需要对这些数据进行进一步的处理。

浏览 0提问于2019-06-10得票数 1

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

python、python-imaging-library、data-extraction、pypdf2

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

检测景观格式的图像，并将其分割成两幅肖像。

bash、pdf、imagemagick、crop、imagemagick-convert

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。我需要对它们执行OCR处理，但我需要使用bash脚本重新格式化它们。我可以用pdfimages从PDF中提取图像，将它们与img2pdf放在一起，用ocrmypdf执行OCR处理。但是，我很难用的实用程序来检测它们的方向，如果必要的话，在纵向模式下将它们分割成两幅图像。你应该知道，并不是所有的扫描都是相同的大小和肖像和景观图像混合在同一个PDF中。/

浏览 2提问于2020-04-20得票数 1

2回答

如何以编程方式验证PDF文件是否为第一代文件？

pdf、verification

要求嵌入的评估PDF文件是第一代。我找到了一种产品，可以让人检查PDF是否包含文本、图像，或者两者都包含：，但出于预算和其他原因，我正在寻找一种自己编程的方法。

浏览 0提问于2011-07-27得票数 1

回答已采纳

1回答

使用python从PDF中提取扫描页面

python、pdf

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答