的 分布式计算引擎 ;
RDD 是 Spark 的基本数据单元 , 该 数据结构 是 只读的 , 不可写入更改 ;
RDD 对象 是 通过 SparkContext 执行环境入口对象 创建的 ;
SparkContext...;
2、RDD 中的数据存储与计算
PySpark 中 处理的 所有的数据 ,
数据存储 : PySpark 中的数据都是以 RDD 对象的形式承载的 , 数据都存储在 RDD 对象中 ;
计算方法...RDD # collect 方法 , 可以查看 RDD 数据 ;
print("RDD 元素: ", rdd.collect())
完整代码示例 :
# 创建一个包含列表的数据
data = [1, 2...)
再后 , 创建一个包含整数的简单列表 ;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize() 方法将其转换为 RDD 对象 ;
#...相对路径 , 可以将 文本文件 中的数据 读取并转为 RDD 数据 ;
文本文件数据 :
Tom
18
Jerry
12
代码示例 :
"""
PySpark 数据处理
"""
# 导入 PySpark