wget和PDFFileReader -无法读取格式错误的PDF文件

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试从希腊卫生部的每日报告中抓取新冠肺炎的数据，这些数据以PDF格式发布在网上。我使用wget下载它们，然后使用PyPDF2从它们抓取数据： import wget wget.download('https://eody.gov.gr/wp-content/uploads/2020/09/covid-gr-daily-report-23-09-2020.<

浏览 24提问于2021-01-21得票数 0

回答已采纳

1回答

Python PDF完整性检查

、

我有一个pdf的库(大多数都有一些随机压缩的东西，还有djvu的)。其中一些pdf已经损坏，应该删除。有没有什么办法可以在python中做pdf完整性检查？

浏览 0提问于2012-04-07得票数 1

3回答

如何覆盖Python当前正在读取的文件

、、、

我不太确定这样做的最好方法，但我想做的是，读取pdf文件，进行各种修改，并将修改后的pdf文件保存在原始文件上。到目前为止，我能够保存修改后的pdf到一个单独的文件，但我希望取代原来，而不是创建一个新的文件。(file('input.pdf', 'rb')) blank

浏览 0提问于2010-05-01得票数 3

回答已采纳

1回答

ValueError:在PyPDF2上对关闭的文件进行查找，并收到此错误

、、

我正在尝试从pdf文件中获取文本。代码如下： from PyPDF2 import PdfFileReader pdf = PdfFileReader(file) #print(dir(page)) print(page.extractText()) 这给了我一个错误 Valu

浏览 181提问于2019-05-05得票数 5

回答已采纳

3回答

将seek添加到filetype对象的廉价方法

、、、

PdfFileReader从pdf文件中读取内容以创建对象。从通过url下载的pdf文件创建PdfFileReader对象的简单方法是什么？现在，我可以做些什么来避免通过file()再次

浏览 0提问于2010-04-16得票数 2

回答已采纳

1回答

TypeError:字符串索引必须是pdfreader中的整数

运行此代码时read_bikeins = pdf.PdfFileReader(bikeins)文件""，第1行，在read_bikeins =

浏览 1提问于2018-02-27得票数 0

4回答

PyPDF2 IOError：[Errno 22]关于PyPdfFileReader Python2.7的无效论证

、、

目标=打开文件，加密文件，写入加密文件。Traceback (most recent call last): File "CommissionSecurity.py",

浏览 2提问于2015-11-21得票数 1

回答已采纳

1回答

PdfReadWarning: PdfFileReader流/文件对象未处于二进制模式

、

我有很多pdf页面，我想把它们合并成一个文件。我的脚本如下：filename_list=[]for(filename) merger.append(PdfFileReader(open(filename),'rb')) merger.write('output.

浏览 6提问于2014-04-01得票数 9

3回答

读取目录中的所有PDF(图像)

、、、

我附上了一张图片，以帮助展示我所做的事情。我正在尝试编写一个程序，该程序将添加一个空白页到目录中具有奇数页的所有PDF。然而，我似乎无法读取一个目录中的所有PDF。我有一个单一的PDF的脚本工程，但我有1000的这些要做的。为什么我无法读取user_input目录下的所有PDF文件？代码在这里

浏览 3提问于2017-02-06得票数 0

1回答

打印到pdf文件中每页第一行的excel

、、、、

我是python的新手，只有一个用来在pdfs中搜索字符串的脚本。现在，我想建立脚本，这将给我在新的CSV/xlsx文件的结果，在那里我将有给定的pdf文件的第一行和他们的页码。现在，我有下面的代码来打印整个页面： from PyPDF2 import PdfFileReader pdf_document = "example.pdf&quo

浏览 26提问于2020-11-06得票数 0

1回答

遍历目录时的字数统计PDF文件

、、、、

我正在尝试构建一个Python程序，它将遍历一个目录(以及所有子目录)，并对所有.html、.txt和.pdf文件进行累计字数统计。当读取.pdf文件时，它需要一些额外的东西(PdfFileReader)来解析文件。在解析.pdf文件时，我得到以下错误，程序停止： AttributeError：'PdfFileReader‘对象没有'start

浏览 36提问于2018-03-06得票数 1

回答已采纳

3回答

PdfFileReader: PdfReadError:无法在指定位置找到xref表

、

我试图通过以下方法读取python中的Pdf文件：test_reader = PdfFileReader(file("test.pdf", "rb"))PyPDF2.utils.PdfReadError: Could not find xref table at specified location

浏览 7提问于2015-12-05得票数 6

回答已采纳

1回答

可编辑的pdf文件无法使用pypdf2读取

、、、

我有pdf文件，这是可编辑的意思是当我打开pdf时，我可以选择和更改pdf格式的下拉选项。这个pdf我试图通过pypdf2模块读取，但没有任何东西作为输出。你们能让我知道我如何阅读和把输出从可编辑的pdf到json格式。感谢在advance.As中，你可以在屏幕截图中看到，打开pdf文件后，我们改变了数据。我尝

浏览 5提问于2020-07-06得票数 0

1回答

如何使用PyPDF2从上传到Google App Engine的PDF中提取文本？

、、

有没有办法从通过谷歌应用程序引擎上传的PDF文件中提取文本和documentInfo？我想使用PyPDF2，我的代码是：pdf_reader = pypdf.PdfFileReader(pdf_file)Traceback (most recent call last): ....File

浏览 4提问于2014-01-13得票数 0

3回答

如何在python中从文件夹中逐个读取pdf文件

、

我正在阅读pdf文件，并试图通过NLP techniques.Right从它们提取关键字，现在程序一次只接受一个pdf。我在D盘上有一个文件夹，叫做'pdf_docs‘。该文件夹包含许多pdf文档。我的目标是从文件夹中一个接一个地读取每个pdf文件。我如何在python中做到这一点。到目前为止成功运行的代码如下所示。import PyPDF2 file

浏览 3提问于2018-10-28得票数 0

回答已采纳

1回答

pyPdf错误无效参数

、、、、

实际上，我正在使用pyPdf打开、读取和写入PDF文件的内容。为此，我使用以下几行代码：content = pdf.getPage(1).extractText() pr

浏览 1提问于2012-05-23得票数 6

1回答

OSX中的pyPDF IOError异常

、

我正在尝试使用PdfFileReader从pyPdf模块打开一个pdf (名为kalimera.pdf)，使用以下一组命令我得到以下错误： Traceback (most recent call last):File "&

浏览 1提问于2016-02-09得票数 0

2回答

在使用PyPDF2读取PDF文件时出现以下错误 raise utils.PdfReadError("File has not been decrypted") PdfReadError: File hasnot been decrypted 我一直在尝试通过python以编程方式读取PDF文档。对于大多数PDF文件，它工作得很好，但对于少数文件，我得到以下错误 raise utils.PdfRea

浏览 288提问于2019-02-12得票数 3

回答已采纳

1回答

如何读取亚洲语言(中文、日文、泰文等)的PDF文件并将字符串存储在python中。

、、、、

我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言的语言(英文字母)，但图书馆无法阅读亚洲语言，如日语和汉语。我尝试过其他库，如textract和PDFMiner，但都没有成功。当我从PDF中复制文本并将其粘贴到笔记本上时，字符就会变成一些随机格式的文本(可能是以不同的编码方式)。def convert_pdf_to_

浏览 1提问于2018-06-22得票数 4

回答已采纳

1回答

无法使用Python3.x: DependencyError: PyCryptodome算法查找PDF的页数

、

我正在对从url下载的文件执行数据验证。其中一个验证检查涉及检查PDF的页数。使用PyPDF2包和PdfFileReader模块，直到我遇到一个具有权限密码但没有打开密码的256位AES加密的PDF。我无法访问任何密码，因为这些文件来自制造商网站，所以我的结论是，目前我只需检查PDF是否加密，如果是的话，暂时跳过它，但不管我是否试图检索页面计数或检查PDF

浏览 9提问于2022-08-29得票数 0

回答已采纳

点击加载更多