我在Azure上使用Databricks/Spark。我想删除存储在blob中的超过100,000个文本文件。该blob已挂载。我使用Python (PySpark)以并行方式删除这些文件的代码如下所示。to be very slow as well when spark job kicks off请注意,我使用dbutils
目前,我可以通过RDD使用以下代码将文本文件解析为DataFrame: # Do parse logic...raw_rdd = spark_context.textFile(full_source_path)
# Convert RDD of strings to RDD of pyspark.sql.Rowrow_rdd = raw_<em