使用pyspark和/或databricks实用程序在S3目录中创建文件名列表的方法如下:
from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder \
.appName("Create File List") \
.getOrCreate()
sc = spark.sparkContext
s3_path = "s3://your_bucket_name/your_directory_path/"
wholeTextFiles()
方法读取S3目录中的所有文件:file_rdd = sc.wholeTextFiles(s3_path)
file_names = file_rdd.keys().collect()
for file_name in file_names:
print(file_name)
这样就可以使用pyspark和/或databricks实用程序在S3目录中创建文件名列表了。
推荐的腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云