wget和PDFFileReader -无法读取格式错误的PDF文件 - 腾讯云开发者社区

文章/答案/技术大牛

发布

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

PDF 文档 PDF代表可移植文档格式，使用pdf文件扩展名。虽然 PDF 支持许多功能，但本章将集中讨论您最常使用它们做的两件事：从 PDF 读取文本内容和从现有文档制作新的 PDF。...有问题的 PDF 格式虽然 PDF 文件很适合以一种人们容易打印和阅读的方式来布局文本，但对于软件来说，它们不容易解析成纯文本。...因此，PyPDF2 在从 PDF 中提取文本时可能会出错，甚至可能根本无法打开某些 PDF。不幸的是，你对此无能为力。PyPDF2 可能无法处理某些特定的 PDF 文件。...在用正确的密码解密文件之前，任何试图调用读取文件的函数都将导致错误 ➋。...可以使用PyPDF2模块读写 PDF 文档。不幸的是，由于复杂的 PDF 文件格式，从 PDF 文档中读取文本可能并不总是能够完美地转换为字符串，有些 PDF 可能根本不可读。

5.6K5 1

在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2

PDF是Portable Document Format的简称，意为“可携带文档格式”，是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。...安装PyPDF2使用pip包管理器安装PyPDF2最新版本：pip install PyPDF2编辑器推荐使用VSCode,启动VSCode，可以直接选择打开“终端”菜单，进行库的安装和程序的运行；非常的方便使用...PyPDF2PyPdf2中有两个模块，分别是:读取库 PDFFileReader操作库 PdfFileWriter1、使用PDFFileReader可以获取pdf文件的基本信息，还可以获取到每一页pdf...：def read():'''读取pdf数据'''from PyPDF2 import PdfFileReader #引入readerpdf = PdfFileReader(input_path) #初始化一个...','wb'))3、重要的概念PageObject:在PdfFileReader加载pdf文件后，获取的每一页都会被转换为PageObject对象，对于Pdf的操作，实际就是在操作PageObject对象

1.5K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

wget 无法下载文件和验证eisc.cn的证书，并且curl 网址问题无法访问的解决办法

问题现象 wget eisc.cn/file/shell/docker-install.sh 或者curl访问网站失败，出现证书问题。...解决问题的根本办法（升级内核）： ---------------------------------------------- #!...elrepo.noarch.rpm # 升级RPM： -Uvh # 安装ELRepo仓库的yum...bo）启动 # kernel [ˈkɜrnəl] 核心，available [əˈveləbəl] (e/ɜ v leibo) 可利用的...等效于 -F \' 符号\ 转译符号 # 坐标中第一个参数行行：每行中 $1 第一列包含字符串menuentry和空格的行

8980 0

利用 Python 对 PDF 进行加密、解密操作，代码拿走就用！

PDF 加密在之前的文章PDF合并、拆分、水印、加密中简单提到过加密一个 PDF 文件的方法，我们先拿自己随意的一个PDF 文件试一下： from PyPDF2 import PdfFileWriter..., PdfFileReader path = r'C:\xxx' # 这里填写目标 PDF 所在的路径 pdf_reader = PdfFileReader(path + r'\test.pdf')...(out) 上面代码的运行逻辑是：实例化一个 PDF 写入器和读取器，读取器读取完目标 PDF 文件后，一页一页交给写入器，然后对写入器设置密码并输出。...PDF 已知密码解密如果知道密码的情况下，想直接取消 PDF 的加密，可以用 .decrypt，解密的过程需要读取器和写入器共同配合。...open(path + r'\test.pdf', 'wb') as out: pdf_writer.write(out) 上面代码的运行逻辑是：首先用读取器读取加密文件，然后直接在读取器上使用

3.4K1 0

Python巧妙操作PDF文档

PDF文档的特点 PDF（Portable Document Format）是一个通用文件格式，几乎可以在所有操作系统和设备上阅读。...PDF 文件可以被搜索、复制、打印，方便办公和学习使用。 Python库操作PDF PDF文件是一种常用的文件格式，用于共享和存储文档和图像。...pdf = 'large_file.pdf' # 要拆分的文件名 # 读取要拆分的 PDF 文件 pdf_reader = PdfFileReader(os.path.join(path, pdf)...pdf = 'sensitive_file.pdf' # 要加密的文件名 # 读取要加密的 PDF 文件 pdf_reader = PdfFileReader(os.path.join(path,...pdf = 'encrypted_file.pdf' # 要解密的文件名 # 读取要解密的 PDF 文件并检查是否加密 pdf_reader = PdfFileReader(os.path.join

6601 0

聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

可以理解为读取器 PdfFileWriter可以理解为写入器接下来通过几个案例进一步认识这两个工具的奇妙之处，用到的示例文件是5个发票的pdf 每个发票的PDF都由两页组成：三、合并第一个工作是将...因此，逻辑中第1步和第2步实际上不是彼此独立的步骤，而是读取器读取完一个pdf后，就将这个pdf全部页循环一遍，挨页交给写入器。最后等读取工作全部结束后再输出。...如果在循环体内则会变成每次访问读取一个pdf就生成一个新的写入器，这样每一个读取器交给写入器的内容就会被反复覆盖，无法实现我们的合并需求!...pdf文件交给读取器进行后续操作。...为2个单独的pdf文档为例，同样也先来捋一捋逻辑：读取器读取PDF文档读取器一页一页交给写入器写入器每获取一页就立即输出通过这个代码逻辑我们也可以明白，写入器初始化和输出的位置一定都在读取PDF

1.3K2 0

使用PyPDF2模块处理PDF文件通用方法技巧

大家好，又见面了，我是你们的朋友全栈君。基本概念：PDF和Word文档是二进制文件，除了文本之外还保存字体，颜色，布局等信息。...读取PDF文件步骤: 首先以读二进制模式打开PDF文件，然后将打开文件File对象传递给PyPDF2.PdfFileReader()函数，例如： pdf=open(r’C:/Users/fmz/...Desktop/rotate.pdf’,‘rb’) pdfreader=PyPDF2.PdfFileReader(pdf) 读取的文档的总页数保存在PdfFileReader对象的numPages...在文件用正确的口令解密之前，尝试调用函数来读取文件会返回错误。解密PDF使用pdfreader.decrypt(‘口令字符串’)函数，提供正确的口令返回1 否则返回0。...PDF 文档可以有一个用户口令（允许查看该PDF）和一个拥有者口令（允许设置打印、注释、提取文本和其他功能的许可）。

1.7K3 0

Python自动化（二十） | 聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

1.5K2 1

Python 深入浅出 – PyPDF2 处理 PDF 文件

参数： stream：*File 对象或支持与 File 对象类似的标准读取和查找方法的对象，也可以是表示 PDF 文件路径的字符串。...(bool)：确定是否 warnings.py 用自定义实现覆盖 Python 模块（默认为 True） PdfFileReader 对象的属性和方法属性和方法描述 getDestinationPageNumber...PDF 文件是否加密的只读布尔属性 namedDestinations 访问该getNamedDestinations()函数的只读属性 PDF 读取操作： # encoding:utf-8 from...属性和方法描述 addAttachment(fname,fdata) 在 PDF 中嵌入文件 addBlankPage(width= None,height=None) 追加一个空白页面到这个 PDF...90 度 scale(sx,sy) 通过向其内容应用转换矩阵并更新页面大小粗略读取 PDF 文本内容 def getPdfContent(filename): pdf = PdfFileReader

2.2K3 0

用Python处理PDF

本文1146字，预计阅读需8分钟； PDF作为可移植文档格式(Portable Document Format)，在日常生活中经常接触到，最近处理一些数据更是频繁接触一些需要批量处理pdf文件的需求，因此便想整理一下自己实践的用...Python处理PDF格式数据的笔记。...PDF处理的高频需求有：读取、写入、格式转换（pdf提取文本写入txt、根据url写入pdf等）、批处理（多个pdf合并为1个、切分pdf）等等。...pypdf2-mindmap-02.jpg'] #图片列表 # for root, dirs, files in os.walk(wpt): ilst=files #也可以通过os.walk(wpt) 读取文件夹...图片转pdf对比效果页面处理过滤pdf中的的特定页面，只保留特定页面；另一方面，给pdf文件添加特定页面； #过滤pdf的特定页面，只保留特定页面； from PyPDF2 import PdfFileReader

2.2K6 0

Office三件套批量转PDF以及PDF书签读写与加水印

书签的提取与写入 PDF书签提取 PDF书签保存到文件从文件读取PDF书签数据向PDF写入书签数据给PDF加水印生成水印PDF文件 PyPDF2库批量加水印拷贝书签加水印同时复制书签 PyMuPDF...但经过实测发现会爆出The Python instance can not be converted to a COM object的类型错误。...) 效果如下：批量转换成PDF 下面我们将上面测试好的代码封装起来，让其能够对任何一个office三件套之一的文件都能转换PDF，程序员封装为在原文件相对目录下生成相同文件名的 PDF 文件（可以根据实际需求修改代码..."), 32) finally: file.Close() 开头先定义了各类文件所对应的格式，后面定义了一个同源。...拷贝书签下面我们将书签从原始文件拷贝到加过水印的 PDF 文件中： from PyPDF2 import PdfFileReader, PdfFileWriter def get_pdf_Bookmark

3.6K1 0

Python操作PDF全总结|处理PDF文档不得不知道的两个库

PyPDF2 PyPDF2 中有两个最常用的类：PdfFileReader和PdfFileWriter，分别用于读取 PDF 和写入 PDF。...其中PdfFileReader传入参数可以是一个打开的文件对象，也可以是表示文件路径的字符串。而PdfFileWriter则必须传入一个以写方式打开的文件对象。...「PdfFileReader 对象的属性和方法」 ? 「PdfFileWriter 对象的属性和方法」 ?...() for page in range(34): # 循环读取需要合并pdf文件 file_reader = PdfFileReader("D:\\pdffiles\\{}.pdf"....("D:\\pdffiles\\水印.pdf") mark_page = sy.getPage(0) # 水印所在的页数 # 读取添加水印的文件 file_reader = PdfFileReader(

4.2K2 0

教你用Python 操作 PDF 的几种方法

： PdfFileReader 可以理解为读取器 PdfFileWriter 可以理解为写入器接下来通过几个案例进一步认识这两个工具的奇妙之处，用到的示例文件是5个发票的 pdf 每个发票的 PDF...因此，逻辑中第1步和第2步实际上不是彼此独立的步骤，而是读取器读取完一个pdf后，就将这个pdf全部页循环一遍，挨页交给写入器。最后等读取工作全部结束后再输出。...如果在循环体内则会变成每次访问读取一个pdf就生成一个新的写入器，这样每一个读取器交给写入器的内容就会被反复覆盖，无法实现我们的合并需求!...pdf 文件交给读取器进行后续操作。...写入器每获取一页就立即输出通过这个代码逻辑我们也可以明白，写入器初始化和输出的位置一定都在读取 PDF 循环每一页的循环体内，而不是在循环体外代码很简单： from PyPDF2 import PdfFileReader

2.1K1 0

用 Python 编辑 PDF 文件

本文介绍的库名为 PyPDF2 ，其安装方法（注意，区分大小写） pip install PyPDF2 每个用于读取 PDF 文件的库都有自己的特点，PyPDF2 亦非万能，如果 PDF 文件太模糊、有特殊编码...、加密，或者创建的 PDF 文件的特定程序与PyPDF2不兼容，都将无法读取。...PyPDF2 只能读取 PDF 文档中的文本，无法从 PDF 中获取图像或其他媒体文件。...然后读取此文件中的内容： # pdfFileReader() 从文件对象中读取 PDF 文本内容 pdf_reader = PyPDF2.PdfFileReader(f) # 返回 PDF 文件的页数...PDF 文件中的各种字体、位置和其他参数之间存在差异。

3.7K3 0

PyPDF2模块

True) stream：*File 对象或支持与 File 对象类似的标准读取和查找方法的对象，也可以是表示 PDF 文件路径的字符串。...(bool)：确定是否 warnings.py 用自定义实现覆盖 Python 模块（默认为 True） PdfFileReader 对象的属性和方法属性和方法...此类表示 PDF 文件中的单个页面，通常这个对象是通过访问 PdfFileReader 对象的 getPage() 方法来得到的，也可以使用 createBlankPage() 静态方法创建一个空的页面...参数： pdf : 页面所属的 PDF 文件。...indirectRef：将源对象的原始间接引用存储在其源 PDF 中 PageObject 对象的属性和方法属性或方法描述 static createBlankPage(pdf=None,width

9921 0

如何使用Python玩转PDF各种骚操作？

Portable Document Format（可移植文档格式），或者PDF是一种文件格式，可以用于跨操作系统的呈现和文档交换。...如何从Python中提取PDF文档信息我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有用的。...PdfFileReader是一个具有多种与PDF文件交互的方法的类。...此函数采用了输入路径和输出路径作为参数。首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...__': path = 'xxx.pdf' split(path, 'jupyter_page') 这个函数中再次创建了PDF的reaer对象，并对其所读取的页面进行遍历。

2.6K2 0

在 Python 中创建和修改 PDF 文件

该PDF，或P ortable d ocument ˚F ORMAT，是最常见的格式在互联网上共享的文件之一。PDF可以在一个文件中包含文本、图像、表格、表单和富媒体。...如此丰富的内容类型会使处理 PDF 变得困难。打开 PDF 文件时，有很多不同类型的数据需要解码！幸运的是，Python 生态系统有一些很棒的包用于读取、操作和创建 PDF 文件。...在本教程中，您将学习如何：从 PDF 中读取文本将 PDF拆分为多个文件连接和合并PDF 文件在 PDF 文件中旋转和裁剪页面使用密码加密和解密PDF文件从头开始创建PDF 文件注意：本教程改编自...本PdfFileReader类提供了所有必要的方法和属性，你需要访问数据的PDF文件。让我们探索一下您可以用 PDF 文件做什么以及如何做！...您在计算机上看到的输出格式可能不同。每个PdfFileReader对象都有一个.pages属性，您可以使用该属性按顺序遍历 PDF 中的所有页面。

16.1K7 0

用Python玩转PDF的各种骚操作

2.6K5 0

PyPDF2 | 利用 Python 实现 PDF 分割

： # PdfFileReader 模块用于读取 pdf # PdfFileWriter 模块用于创建要保存的 pdf from PyPDF2 import PdfFileReader, PdfFileWriter...读取 pdf pdf_input = PdfFileReader(open('xxx.pdf', 'rb')) # 2....将修改好的 pdf 添加到我们要输出的文件中 pdf_output.addPage(page) # 7....循环所有的页数后，将文件输出为 pdf 文件 pdf_output.write(open('xxx,pdf', 'wb')) 需要注意的是，PyPDF2 默认将较短的边作为 X 轴，较长的边作为 Y 轴...(open(infile, 'rb')) # 读取切割为左边的 pdf pdf_input_right = PdfFileReader(open(infile, 'rb')) # 读取切割为右边的

2.8K2 0

Py 自动化办公

文件中固定页码范围，例如我只想提取 pdf 中的 2-5 页，其它部分不要，那么代码将写成下面形式 pdf_writer = PdfFileWriter() pdf_reader = PdfFileReader...多个 PDF 文件合并为单个 pdf 拆分与合并方向虽然相反，但用到的类、原理都是一样的 PdfFileReader读取每个pdf，并递归获取每一页page 对象， PdfFileWrite 新建一个流对象...，把前面内存中读取到的 page 对象按顺序写入到这个流对象中，最后写入到磁盘文件 ··· from PyPDF2 import PdfFileReader,PdfFileWriter p1_pdf...PDF加密解密 pdf加密对一份 pdf 文件，如果我们不想让其他人能够读取里面的内容，可以通过 pypdf2 对它设置密码，如果只是单个文件的话，建议最好自己找个工具受手动操作一下会高效一点，但若是多个文件...owner_pwd 与 user_pwd 相同； use_128bit 布尔值，用来表示是否使用128位作为密码，False 时代表用 40 位密码，默认为True； pdf解密解密是在读取文件时用的

2K0 0

点击加载更多

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2

wget 无法下载文件和验证eisc.cn的证书，并且curl 网址问题无法访问的解决办法

利用 Python 对 PDF 进行加密、解密操作，代码拿走就用！

Python巧妙操作PDF文档

聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

使用PyPDF2模块处理PDF文件通用方法技巧

Python自动化（二十） | 聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

Python 深入浅出 – PyPDF2 处理 PDF 文件

用Python处理PDF

Office三件套批量转PDF以及PDF书签读写与加水印

Python操作PDF全总结|处理PDF文档不得不知道的两个库

教你用Python 操作 PDF 的几种方法

用 Python 编辑 PDF 文件

PyPDF2模块

如何使用Python玩转PDF各种骚操作？

在 Python 中创建和修改 PDF 文件

用Python玩转PDF的各种骚操作

PyPDF2 | 利用 Python 实现 PDF 分割

Py 自动化办公

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐