pdf ocr转换 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

带有OCR松散OCR的ps2pdf

我已经寻找了大量的时间来转换ps2pdf与OCR。所发生的事失去了OCR。pdf2ps test.pdf

浏览 1提问于2020-05-26得票数 1

回答已采纳

2回答

如何将pdf格式转换为eBook格式

、

是否有方法将PDF文档转换为eBook格式，如epub、azw或mobi？我正在寻找一个应用程序，这是快速的转换。我刚试过口径。10分钟后，甚至没有达到2%的转换。所以请不要有口径。CLI是首选。

浏览 0提问于2013-04-26得票数 9

回答已采纳

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

、、

如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保pdf文件有书签(由文件名创建)，以便文档易于浏览。

浏览 0提问于2021-09-23得票数 0

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

、、

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf')AttributeError: module '

浏览 5提问于2020-11-24得票数 1

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。在这两种方法中的任何

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。即使它的格式仍然很好，我也不知道如何将字符对象转换成最终的df。有没有一种方法可以将扫描的pdf转换成可读的pdf，这样我就可以在tabulizer中抓取它了？

浏览 5提问于2022-11-16得票数 0

1回答

扫描pdf至doc

有没有人知道是否有一个免费的在线OCR转换器，可以转换大扫描的pdf文件(例如，我想转换一个扫描的28 of大小的pdf文档)？我试过很多ocr转换器，但都失败了。

浏览 0提问于2016-01-17得票数 0

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

1回答

两种输入文件类型同时在GNU并行？

、、、

-l deu_frak && rm {.}.pgm' b) export -f generate_pgm PGM="$1"

浏览 2提问于2017-07-25得票数 1

1回答

将扫描的pdf文件转换为文本可搜索的pdf文件

、、

我想将扫描的pdf文件转换为可文本搜索的pdf文件。我想给出一个输入作为扫描的PDF，然后我的预期输出是可搜索的PDF。有几个工具，给我们的文本作为输出从扫描的pdf文件，但我想文本可搜索的pdf文件作为输出，而不仅仅是文本。请帮助我给任何开放源代码的网络api或付费网络api服务的链接，或任何工具，可以转换为文本搜索的pdf文件。我在我的web应用程序中使用PHP语言。

浏览 25提问于2017-07-09得票数 1

1回答

高新ECM含量转换

我使用Alfresco将TIFF转换为PDF，使用Tiger OCR库()<?BEAN//EN' 'http://www.springframework.org/dtd/spring-beans.dtd'> <bean id="transformer.Ocr.Ti

浏览 1提问于2011-04-15得票数 0

1回答

Python OCR Sudoku图像

、

我需要使用ocr来转换sudoku图像上的数字，并将其作为网格读取。

浏览 3提问于2022-06-16得票数 0

1回答

关于一个好的自由软件/网站将pdf转换为EPUB的建议

、

我发现，当我将一个包含大量文本的pdf文件转换成EPUB格式(例如书籍)时，它们会在同一句话之间被分割成段落，我使用过-量程，Toepub.com和许多在大坏网站上可以找到的网站;-)。我还没有能够完全掌握口径的不同的features.So，任何黑客修复在口径内的转换也是非常感谢的。我的基本问题是文字被歪曲了。

浏览 0提问于2019-11-14得票数 0

1回答

如何像Chrome浏览器那样使用Python从PDF中提取文本？

、、

我正在尝试从pdf文件中提取文本(类似于表单)。目前，我在Chrome上打开文件，选择/复制所有文本，将其粘贴到txt文件中，然后使用Python将其处理为CSV。Chrome让我的数据非常结构化和统一，这样pdf的每一页都会产生类似的文本块，让我可以轻松地处理它。我试图直接从pdf中提取文本，以将其处理为CSV格式，但由于原始pdf的生成方式，我总是得到一些混乱的结果。我尝试过pdfminer和pyPdf2，但当表单在某些字段中缺少值时，结果会变得混乱。

浏览 35提问于2021-06-16得票数 0

4回答