使用pyspark从S3存储桶中读取CSV文件可以通过以下步骤实现:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Read CSV from S3") \
.getOrCreate()
spark.conf.set("spark.hadoop.fs.s3a.access.key", "your_access_key")
spark.conf.set("spark.hadoop.fs.s3a.secret.key", "your_secret_key")
请将"your_access_key"和"your_secret_key"替换为您的AWS访问密钥。
df = spark.read \
.format("csv") \
.option("header", "true") \
.load("s3a://your_bucket_name/your_file.csv")
请将"your_bucket_name"替换为您的S3存储桶名称,"your_file.csv"替换为您要读取的CSV文件路径。
df.show()
完整的代码示例:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Read CSV from S3") \
.getOrCreate()
spark.conf.set("spark.hadoop.fs.s3a.access.key", "your_access_key")
spark.conf.set("spark.hadoop.fs.s3a.secret.key", "your_secret_key")
df = spark.read \
.format("csv") \
.option("header", "true") \
.load("s3a://your_bucket_name/your_file.csv")
df.show()
这样就可以使用pyspark从S3存储桶中读取CSV文件了。
推荐的腾讯云相关产品:腾讯云对象存储(COS)。 腾讯云COS是一种高扩展性、低成本的云端对象存储服务,适用于存储和处理任意类型的文件,包括文本、图片、音视频等。您可以通过腾讯云COS存储您的CSV文件,并使用pyspark从中读取数据。
腾讯云COS产品介绍链接地址:腾讯云对象存储(COS)
领取专属 10元无门槛券
手把手带您无忧上云