识别扫描pdf的文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

可将OCR文本插入回源PDF的OCR库

pdf、ocr

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。哪种编程语言和库给了我最大的灵活性来完成这样的任务，而不需要我做所有繁琐的工作。我对Python很熟悉。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别<

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

pdf、search、text

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

帮助Canon CanoScan LiDE扫描PDF文档

pdf、canon、scanner、ocr

在过去的10天里，我刚刚开始使用Ubuntu，打算永久停止使用Windows。到目前为止已经很棒了。我已经用可用的Ubuntu应用程序和Google的一些帮助替换了几乎所有的Microsoft应用程序。我的佳能CanoScan LiDE 110扫描仪出了问题。当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

buffio.Scanner和文本/扫描仪有什么区别？

io、go

与包和.的区别是什么？

浏览 4提问于2014-08-01得票数 1

回答已采纳

1回答

如何识别图像文件中的文本，以及如何阅读该文本？

java、algorithm、ocr

在图像格式中有满满的文字。(E)以图像文件*.tiff格式扫描的文件。光学字符识别方法只识别正常格式的字母表。在这种图像格式中包含的文字就像行文一样。那么如何识别中的文本并将其转换为文本文件呢？

浏览 8提问于2014-10-11得票数 2

2回答

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

pdf、imagemagick、tiff

我转换pdf到tiff图像与图像魔术，从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像：为什么会发生这种情况，以及如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

浏览 1提问于2018-05-16得票数 0

回答已采纳

1回答

ZXing PDF417 + ALL_CODE_TYPES

android、zxing、pdf417

使用ZXing (在安卓上)，如果你启动像这样的PDF417条形码扫描.List<String> oDesiredFormats = Arrays.asList("PDF_417".split(",")); IntentIntegrator integrator = new你启动一个“所有代码”(除了PDF417和其他几个)条形码扫描像这样.那么，如何启动一次条形码扫描，同时识别(所有标准代码和<em

浏览 5提问于2014-03-21得票数 2

回答已采纳

1回答

如何使用python识别pdf中的图形？

pdf、text-parsing、pdf-parsing、pdfplumber

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

在图像中查找已知文本(引导OCR)

image-processing、ocr

我在寻找一种在图像中定位已知文本的方法。具体来说，我正在创建一个工具，将一组扫描页面转换为支持搜索和copy+paste的PDF。我理解这通常是如何做到的: OCR页面，保留文本的位置，然后将文本作为不可见层添加到PDF中。Acrobat具有此功能，tesseract可以输出hOCR文件(包含识别的文本及其位置)，hocr2pdf可以使用这些文件生成文本层。不幸的是，我的源图像质量相当低(最多15

浏览 3提问于2015-02-23得票数 4

0回答

.net的tesseract OCR能处理pdf文件吗？

c#、pdf、ocr、tesseract

我想在png和pdf文件上执行光符识别。我能够获得png文件的Tesseract 3.0.2 .net包装器工作，但我找不到任何用于PDf files.So的类，它是否适用于pdf files.If不然后请让我知道扫描pdf的任何其他开源库。我的需求是扫描特定圆的pdf格式的图表，并为这些圆创建超链接。

浏览 8提问于2016-12-27得票数 2

回答已采纳

1回答

如何从PDF文件中正确提取日文txt

python、algorithm

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

1回答

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

pdf、ocr

其目标是自动将所有扫描文档转换为可搜索的PDF文件，而不仅仅是图像。扫描后的文档由扫描仪自动上传到Linux服务器上的共享文件中，作为PDF文件。该软件应该能够监视文件夹和自动OCR扫描的文件，并将识别的文本添加到PDF文件，使其可搜索。它还应该能够很好地处理多页PDF。Linux 在后台自动工作，不需要任何额外的手动步骤。能够以正确<

浏览 0提问于2014-04-28得票数 16

1回答

在OSX中为扫描手写便笺的PDF添加文本层

macos、pdf、handwriting

在课堂上，我喜欢手写的笔记，然后我扫描它们，然后把它们打出来(帮助我记住它们，也使它们易于搜索)。主要的问题是，我使用了大量的绘图和复杂的数学，将数学公式转换成胶乳(或word)非常耗时，绘图要求我保存PDF和文本文档。我想做的是把我自己输入的基本文本(没有OCR)添加到PDF的文本层中，这样PDF就可以搜索，并且我可以通过不转换数学或绘图来节省很多时间。我已经研究过Preview、PDFpenPr

浏览 9提问于2013-09-12得票数 2

2回答

使用Google Cloud Vision的OCR PDF文件？

pdf、pdf-generation、ocr、google-cloud-vision

目前是否有任何服务或软件工具使用Google Cloud Vision作为OCRing扫描的PDF文件的后端？如果没有，如何使用Google Cloud Vision将PDF转换为OCRed PDF？据我所知，Cloud Vision目前支持PDF文件，但它只能将识别的文本输出为JSON文件。因此，似乎需要在Google Cloud Vision之外的另一个步骤中，将这个转换后的文本放在PDF中<e

浏览 0提问于2018-09-15得票数 4

1回答

如何创建高保真度PDF与可复制文本扫描？

pdf、scanner、text、ocr

一些公司通过扫描仪提供Windows软件，这些软件可以从扫描过的页面上创建PDF，这些页面看起来与扫描的内容完全一样(就好像它只是全页图像)，但文本是可以识别和复制的。如何在Ubuntu上创建这样的PDF？请注意，我不希望将扫描文本转换为常规文本。我想保持PDF外观的图片-完美的原始页面，但增加了一个公认的文本层，以方便使用。我有一个工作<em

浏览 0提问于2017-09-24得票数 4

回答已采纳

1回答

寻找收据扫描器，而不是连续扫描任何长度的收据。

scanner

我正在寻找一个收据扫描仪，可以扫描非常长的收据(高达30英尺长)，并产生一个单一的图像或PDF。理想情况下，它将具有光学字符识别(optical字符识别)，并生成一个包含文本信息的PDF (例如，当您在Acrobat之类的地方打开PDF时，您可以搜索单词，或者可以使用单独的软件将文本内容提取到一个因为我不希望它用于像Neat这样的软件，所以如果可能的话，我不愿意为

浏览 0提问于2018-05-09得票数 2

1回答

如何快速从图像中扫描可搜索的pdf？

ios、swift、pdf、ocr、swift5

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。 var str = "0" if let tessaract

浏览 2提问于2020-10-13得票数 0

回答已采纳

2回答

Acrobat XI Pro喜欢pdf阅读器

application-development、pdf、adobe-reader

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

2回答

如何确定是否扫描了.pdf文件的内容

php、zend-framework、zend-pdf

因此，我有一个.pdf文件，我需要能够确定它是否是通过扫描到PDF中创建的。我正在尝试确定它是否是我可以显示为文本的pdf。$pdf->properties['Producer']有没有办法确定我处理的是哪种类型的.pdf文件？

浏览 6提问于2010-03-05得票数 3

回答已采纳

点击加载更多

可将OCR文本插入回源PDF的OCR库

关于拆分PDF和OCR识别

如何使用doc取器在PDF文件中搜索文本？

帮助Canon CanoScan LiDE扫描PDF文档

buffio.Scanner和文本/扫描仪有什么区别？

如何识别图像文件中的文本，以及如何阅读该文本？

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

ZXing PDF417 + ALL_CODE_TYPES

如何使用python识别pdf中的图形？

在图像中查找已知文本(引导OCR)

.net的tesseract OCR能处理pdf文件吗？

如何从PDF文件中正确提取日文txt

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

在OSX中为扫描手写便笺的PDF添加文本层

使用Google Cloud Vision的OCR PDF文件？

如何创建高保真度PDF与可复制文本扫描？

寻找收据扫描器，而不是连续扫描任何长度的收据。

如何快速从图像中扫描可搜索的pdf？

Acrobat XI Pro喜欢pdf阅读器

如何确定是否扫描了.pdf文件的内容

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐