零代码编程:用ChatGPT提取PDF文件一页中的多个表格
一个PDF文件中,有好几个表格,要全部提取出来,该怎么做呢?
在ChatGPT中输入提示词:
写一段Python代码:
使用PdfPlumber库提取“F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf”第174页中的所有表格,
保存第1个表格到F盘的“艾能聚1.xlsx”;
保存第2个表格到F盘的“艾能聚2.xlsx“;
保存第3个表格到F盘的“艾能聚3.xlsx“;
注意:每一步都要输出信息
ChatGPT生成的代码如下:
import os
import pandas as pd
import pdfplumber
def save_to_excel(data, file_path):
df = pd.DataFrame(data)
df.to_excel(file_path, index=False)
print(f"表格内容已保存到文件: {file_path}")
def extract_tables_from_pdf(file_path, page_num_list, output_folder):
with pdfplumber.open(file_path) as pdf:
for i, page_num in enumerate(page_num_list):
page = pdf.pages[page_num - 1]
tables = page.extract_tables()
for j, table in enumerate(tables):
output_file = os.path.join(output_folder, f"艾能聚{i+1}_{j+1}.xlsx")
save_to_excel(table, output_file)
def main():
pdf_path = r"F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf"
page_num_list = [174]
output_folder = r"F:"
extract_tables_from_pdf(pdf_path, page_num_list, output_folder)
if __name__ == "__main__":
main()
这是提取的第一个表格:
这是提取的第二个表格:
这是提取的第三个表格:
本文分享自 Dance with GenAI 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!