ocr扫描pdf转word - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

PDF和文本层

pdf、ocr、scanning

根据这个站点的，当添加一个文本层时，PDF是可搜索的。如果扫描仪在图像上执行OCR，它是否将文本存储在“文本层”中？或者是&qu

浏览 2提问于2012-07-10得票数 15

回答已采纳

3回答

我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的PDF文件。我已经看到了前面的问题，但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我将tessedit_create_pdf选项设置为1，但没有得到新的pdf文件。我没有看到设置输出文件的选项。如何使tesseract创建一个带有嵌入式文本的pdf？下面的代码在内存中生成很好的文本，但是没有PDF文件。tesseract(language = "eng", options =

浏览 9提问于2021-08-29得票数 1

3回答

将扫描的PDF转换为可搜索的PDF ( R)

r、pdf、tesseract、pdftools、ropensci

我正在尝试使用tesseract和pdftools包将一系列扫描的PDF转换成可搜索的PDF。我已经完成了两步。现在我需要写回一个可搜索的pdf。读取扫描PDF eg <- download.file("https://www.fujitsu.com/global/Images/sv600_c_automatic.pdf</em

浏览 22提问于2021-09-01得票数 1

3回答

如何区分数字创建的PDF和可搜索的PDF？

python、pdf

我想知道有多少PDF文件属于这三个类别：这是很容易识别图像仅PDF在我的领域，

浏览 11提问于2020-08-19得票数 11

回答已采纳

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

python、ocr、rgb、cmyk、wand

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

3回答

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

c#、pdf-generation、ms-office、openoffice.org、doc

我需要转换成.doc文件使用C#的PDF文件。虽然这台计算机没有安装Office，但它没有文件系统。有没有什么好办法让我这么做呢？我做了一些研究，大多数人都在使用互操作服务。

浏览 2提问于2011-04-23得票数 0

回答已采纳

1回答

使用python从PDF中提取扫描页面

python、pdf

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

pdf、applescript、ocr、acrobat、automator

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：删除PDF原始文件中的/PDF-<em

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

如何将所有图像转换为Word文档中的文本？

webapp-rec、ocr

这些图片中有文字，我找不到一个工具，可以很容易地做到这一点，最好没有任何安装。

浏览 0提问于2011-02-17得票数 0

1回答

供私人使用的文件管理

document-management、dms

这些要求相对简单：我已经试过我的mac了，但它还没修好.

浏览 4提问于2013-08-08得票数 5

1回答

将扫描的pdf文件转换为文本可搜索的pdf文件

php、pdf、ocr

我想将扫描的pdf文件转换为可文本搜索的pdf文件。我想给出一个输入作为扫描的PDF，然后我的预期输出是可搜索的PDF。有几个工具，给我们的文本作为输出从扫描的pdf文件，但我想文本可搜索的pdf文件作为输出，而不仅仅是文本。请帮助我给任何开放源代码的网络api或付费网络api服务的链接，或任何工具，可以转换为文本搜索的pdf文件。我在我的web应用程序中使用PHP语言。

浏览 25提问于2017-07-09得票数 1

1回答

如何使用doc取器在PDF文件中搜索文本？

pdf、search、text

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

4回答

以最快的方式批量/批量地将PDF转换成可搜索的文本？(千)

windows、ocr、batch、file-conversion

我想知道是否有人有任何软件建议，以大规模OCR大约1000个PDF文件。可以；转换为文本、word文档或使PDF可搜索。我只需要一种高效的方法来分析转换后的文件。编辑:我基本上是在寻找一种方法，将5000~扫描的PDF转换为可搜索的PDF，甚至是文本文件。

浏览 0提问于2019-05-06得票数 0

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

python、ocr、python-tesseract

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf')AttributeError: module '

浏览 5提问于2020-11-24得票数 1

回答已采纳

2回答

如何以编程方式验证PDF文件是否为第一代文件？

pdf、verification

要求嵌入的评估PDF文件是第一代。我找到了一种产品，可以让人检查PDF是否包含文本、图像，或者两者都包含：，但出于预算和其他原因，我正在寻找一种自己编程的方法。

浏览 0提问于2011-07-27得票数 1

回答已采纳

2回答

如何区分扫描的PDF和常规的文本PDF

r、pdf、tesseract

我正在处理多个PDF文件的OCR任务。其中一些是扫描的(不可搜索的)，另一些只是原生的(可搜索的)PDF。image1 = image_read_pdf (file.list1[1], density=150)用于文本的pdf text1 = pdf</em

浏览 7提问于2021-04-10得票数 1

1回答

Google Drive API扫描文档

android、google-drive-api

我需要包含将文档扫描到我的应用程序中的功能。可以使用新的Google drive API来扫描文档吗？我尝试使用OpenCV来处理图像，但是没有得到好的结果。

浏览 1提问于2014-07-17得票数 2

1回答

检查是否已从Word/Google Docs导出PDF

pdf、ms-word、ocr、export-to-pdf

我正在做一些OCRing PDF的工作，我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF，所以如果我发现PDF没有OCR，我就知道它没有导出。但是，如果它已经光学字符识别，有没有办法检查的PDF是否从Word&

浏览 2提问于2013-06-14得票数 0

1回答

扫描pdf至doc

pdf

有没有人知道是否有一个免费的在线OCR转换器，可以转换大扫描的pdf文件(例如，我想转换一个扫描的28 of大小的pdf文档)？我试过很多ocr转换器，但都失败了。

浏览 0提问于2016-01-17得票数 0

点击加载更多

PDF和文本层

使用R在PDF中存储Tesseract输出

将扫描的PDF转换为可搜索的PDF ( R)

如何区分数字创建的PDF和可搜索的PDF？

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

使用python从PDF中提取扫描页面

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

如何将所有图像转换为Word文档中的文本？

供私人使用的文件管理

将扫描的pdf文件转换为文本可搜索的pdf文件

如何使用doc取器在PDF文件中搜索文本？

以最快的方式批量/批量地将PDF转换成可搜索的文本？(千)

AttributeError:模块“ocrmypdf”没有属性“ocr”

如何以编程方式验证PDF文件是否为第一代文件？

如何区分扫描的PDF和常规的文本PDF

Google Drive API扫描文档

检查是否已从Word/Google Docs导出PDF

扫描pdf至doc

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐