零代码编程：用ChatGPT提取PDF文件一页中的多个表格

AIGC部落

发布于 2024-06-24 15:06:24

3070

文章被收录于专栏：Dance with GenAIDance with GenAI

零代码编程：用ChatGPT提取PDF文件一页中的多个表格

一个PDF文件中，有好几个表格，要全部提取出来，该怎么做呢？

在ChatGPT中输入提示词：

写一段Python代码：

使用PdfPlumber库提取“F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf”第174页中的所有表格，

保存第1个表格到F盘的“艾能聚1.xlsx”;

保存第2个表格到F盘的“艾能聚2.xlsx“;

保存第3个表格到F盘的“艾能聚3.xlsx“;

注意：每一步都要输出信息

ChatGPT生成的代码如下：

import os

import pandas as pd

import pdfplumber

def save_to_excel(data, file_path):

df = pd.DataFrame(data)

df.to_excel(file_path, index=False)

print(f"表格内容已保存到文件: {file_path}")

def extract_tables_from_pdf(file_path, page_num_list, output_folder):

with pdfplumber.open(file_path) as pdf:

for i, page_num in enumerate(page_num_list):

page = pdf.pages[page_num - 1]

tables = page.extract_tables()

for j, table in enumerate(tables):

output_file = os.path.join(output_folder, f"艾能聚{i+1}_{j+1}.xlsx")

save_to_excel(table, output_file)

def main():

pdf_path = r"F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf"

page_num_list = [174]

output_folder = r"F:"

extract_tables_from_pdf(pdf_path, page_num_list, output_folder)

if __name__ == "__main__":

main()

这是提取的第一个表格：

这是提取的第二个表格：

这是提取的第三个表格：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-07-20，如有侵权请联系 cloudcommunity@tencent.com 删除

表格

本文分享自 Dance with GenAI 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

零代码编程：用ChatGPT提取PDF文件一页中的多个表格

零代码编程：用ChatGPT提取PDF文件一页中的多个表格

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐