;
2、RDD 中的数据存储与计算
PySpark 中 处理的 所有的数据 ,
数据存储 : PySpark 中的数据都是以 RDD 对象的形式承载的 , 数据都存储在 RDD 对象中 ;
计算方法...: 大数据处理过程中使用的计算方法 , 也都定义在了 RDD 对象中 ;
计算结果 : 使用 RDD 中的计算方法对 RDD 中的数据进行计算处理 , 获得的结果数据也是封装在 RDD 对象中的 ;
PySpark...容器数据 转换为 PySpark 的 RDD 对象 ;
PySpark 支持下面几种 Python 容器变量 转为 RDD 对象 :
列表 list : 可重复 , 有序元素 ;
元组 tuple :...可重复 , 有序元素 , 可读不可写 , 不可更改 ;
集合 set : 不可重复 , 无序元素 ;
字典 dict : 键值对集合 , 键 Key 不可重复 ;
字符串 str : 字符串 ;
2、...方法 , 打印出来的 RDD 数据形式 :
列表 / 元组 / 集合 转换后的 RDD 数据打印出来都是列表 ;
data1 = [1, 2, 3, 4, 5]
data2 = (1, 2, 3, 4