在Python中,可以使用os
模块和glob
模块来处理目录中的文件,并使用pdf2text
库将PDF文件转换为文本。
首先,需要导入所需的模块:
import os
import glob
from pdf2text import convert
然后,可以使用glob
模块来查找目录中的所有.pdf文件:
pdf_files = glob.glob("*.pdf")
接下来,可以遍历每个找到的PDF文件,为每个文件创建一个新的.txt文件,并将其内容保存为文本:
for pdf_file in pdf_files:
# 获取PDF文件名(不带扩展名)
pdf_filename = os.path.splitext(pdf_file)[0]
# 创建新的.txt文件名
txt_filename = pdf_filename + ".txt"
# 使用pdf2text库将PDF转换为文本
text = convert(pdf_file)
# 将文本保存到新的.txt文件中
with open(txt_filename, "w") as file:
file.write(text)
以上代码会在相同的目录下为每个.pdf文件创建一个新的.txt文件,其中存储着对应PDF文件的文本内容。
关于这个问题,腾讯云提供了多种相关产品,其中腾讯云对象存储 COS 可以用于存储和管理文件,腾讯云函数 SCF 可以用于执行简单的代码功能,而腾讯云云服务器 CVM 可以提供虚拟机来运行代码。这些产品可以与Python代码结合使用,实现文件处理和存储的功能。
以上是关于在Python中为每个.pdf文件创建一个新的.txt文件的解答,希望对您有帮助。
领取专属 10元无门槛券
手把手带您无忧上云