服务器集群 中的 不同服务器节点 上 并行执行 计算任务 , 可以提高数据处理速度 ;
2、RDD 中的数据存储与计算
PySpark 中 处理的 所有的数据 ,
数据存储 : PySpark 中的数据都是以...RDD 对象的形式承载的 , 数据都存储在 RDD 对象中 ;
计算方法 : 大数据处理过程中使用的计算方法 , 也都定义在了 RDD 对象中 ;
计算结果 : 使用 RDD 中的计算方法对 RDD...中的数据进行计算处理 , 获得的结果数据也是封装在 RDD 对象中的 ;
PySpark 中 , 通过 SparkContext 执行环境入口对象 读取 基础数据到 RDD 对象中 , 调用 RDD 对象中的计算方法..., 对 RDD 对象中的数据进行处理 , 得到新的 RDD 对象 其中有 上一次的计算结果 , 再次对新的 RDD 对象中的数据进行处理 , 执行上述若干次计算 , 会 得到一个最终的 RDD 对象...分区数量和元素: 12 , [1, 2, 3, 4, 5]
rdd3 分区数量和元素: 12 , [1, 2, 3, 4, 5]
字典 转换后的 RDD 数据打印出来只有 键 Key , 没有值