从流式Excel表格解析到Python Pandas DataFrame可以通过以下步骤实现:
import pandas as pd
import openpyxl
from openpyxl import load_workbook
df = pd.DataFrame()
wb = load_workbook(filename='your_file.xlsx', read_only=True)
sheets = wb.sheetnames
for sheet_name in sheets:
sheet = wb[sheet_name]
data = sheet.values
cols = next(data)[1:] # 获取列名,假设第一行为列名
data = list(data)
rows = []
for row in data:
rows.append(row[1:]) # 假设第一列为索引列
temp_df = pd.DataFrame(rows, columns=cols)
df = pd.concat([df, temp_df], ignore_index=True)
wb.close()
现在,你可以使用DataFrame对象(df)对解析后的数据进行进一步的处理和分析。
这种方法适用于大型Excel文件,因为它使用流式解析,而不是一次性加载整个文件到内存中。这样可以减少内存消耗,并提高解析效率。
推荐的腾讯云相关产品:腾讯云对象存储(COS),用于存储和管理解析后的数据。你可以通过以下链接了解更多信息: https://cloud.tencent.com/product/cos
领取专属 10元无门槛券
手把手带您无忧上云