首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >零代码编程:用ChatGPT提取PDF文件一页中的多个表格

零代码编程:用ChatGPT提取PDF文件一页中的多个表格

作者头像
AIGC部落
发布2024-06-24 15:06:24
发布2024-06-24 15:06:24
3070
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

零代码编程:用ChatGPT提取PDF文件一页中的多个表格

一个PDF文件中,有好几个表格,要全部提取出来,该怎么做呢?

在ChatGPT中输入提示词:

写一段Python代码:

使用PdfPlumber库提取“F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf”第174页中的所有表格,

保存第1个表格到F盘的“艾能聚1.xlsx”;

保存第2个表格到F盘的“艾能聚2.xlsx“;

保存第3个表格到F盘的“艾能聚3.xlsx“;

注意:每一步都要输出信息

ChatGPT生成的代码如下:

import os

import pandas as pd

import pdfplumber

def save_to_excel(data, file_path):

df = pd.DataFrame(data)

df.to_excel(file_path, index=False)

print(f"表格内容已保存到文件: {file_path}")

def extract_tables_from_pdf(file_path, page_num_list, output_folder):

with pdfplumber.open(file_path) as pdf:

for i, page_num in enumerate(page_num_list):

page = pdf.pages[page_num - 1]

tables = page.extract_tables()

for j, table in enumerate(tables):

output_file = os.path.join(output_folder, f"艾能聚{i+1}_{j+1}.xlsx")

save_to_excel(table, output_file)

def main():

pdf_path = r"F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf"

page_num_list = [174]

output_folder = r"F:"

extract_tables_from_pdf(pdf_path, page_num_list, output_folder)

if __name__ == "__main__":

main()

这是提取的第一个表格:

这是提取的第二个表格:

这是提取的第三个表格:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档