,可以通过以下步骤实现:
import boto3
import pandas as pd
# 配置AWS凭证
session = boto3.Session(
aws_access_key_id='YOUR_ACCESS_KEY',
aws_secret_access_key='YOUR_SECRET_KEY',
region_name='YOUR_REGION'
)
# 创建S3客户端
s3_client = session.client('s3')
# 定义S3存储桶和文件路径
bucket_name = 'YOUR_BUCKET_NAME'
folder_path = 'YOUR_FOLDER_PATH'
# 获取S3存储桶中的所有对象
response = s3_client.list_objects_v2(Bucket=bucket_name, Prefix=folder_path)
# 遍历筛选符合上次修改时间窗口的文件
files = []
for obj in response['Contents']:
last_modified = obj['LastModified']
# 根据上次修改时间窗口进行筛选
if last_modified >= start_time and last_modified <= end_time:
file_key = obj['Key']
files.append(file_key)
# 读取符合条件的S3文件到DataFrame
dataframes = []
for file_key in files:
response = s3_client.get_object(Bucket=bucket_name, Key=file_key)
content = response['Body'].read()
dataframe = pd.read_csv(content)
dataframes.append(dataframe)
# 合并所有DataFrame
merged_dataframe = pd.concat(dataframes)
腾讯云提供了类似的对象存储服务,称为腾讯云对象存储(COS)。您可以参考腾讯云COS的文档了解更多信息:腾讯云对象存储(COS)。
领取专属 10元无门槛券
手把手带您无忧上云