在 PySpark 中,可以使用SparkContext
的parallelize
方法将 Python 的列表转换为 RDD(弹性分布式数据集)。以下是一个示例代码,展示了如何将 Python 列表转换为 RDD:
from pyspark import SparkContext
# 创建 SparkContext
sc = SparkContext.getOrCreate()
# 定义一个 Python 列表
data_list = [1, 2, 3, 4, 5]
# 将 Python 列表转换为 RDD
rdd = sc.parallelize(data_list)
# 打印 RDD 的内容
print(rdd.collect())
在这个示例中,我们首先创建了一个SparkContext
对象,然后定义了一个 Python 列表data_list
。接着,使用SparkContext
的parallelize
方法将这个列表转换为 RDD,并存储在变量rdd
中。最后,使用collect
方法将 RDD 的内容收集到驱动程序并打印出来。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。