二、Python 容器数据转 RDD 对象
1、RDD 转换
在 Python 中 , 使用 PySpark 库中的 SparkContext # parallelize 方法 , 可以将 Python...Python 容器数据转为 RDD 对象 ;
# 将数据转换为 RDD 对象
rdd = sparkContext.parallelize(data)
调用 RDD # getNumPartitions...;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为 RDD 对象 ;
# 将数据转换为 RDD 对象
rdd =...12 , ['Tom', 'Jerry']
rdd5 分区数量和元素: 12 , ['T', 'o', 'm']
Process finished with exit code 0
三、文件文件转...RDD 对象
----
调用 SparkContext#textFile 方法 , 传入 文件的 绝对路径 或 相对路径 , 可以将 文本文件 中的数据 读取并转为 RDD 数据 ;
文本文件数据 :