一、RDD 简介
1、RDD 概念
RDD 英文全称为 " Resilient Distributed Datasets " , 对应中文名称 是 " 弹性分布式数据集 " ;
Spark 是用于 处理大规模数据...读取数据时 , 通过将数据拆分为多个分区 , 以便在 服务器集群 中进行并行处理 ;
每个 RDD 数据分区 都可以在 服务器集群 中的 不同服务器节点 上 并行执行 计算任务 , 可以提高数据处理速度...;
2、RDD 中的数据存储与计算
PySpark 中 处理的 所有的数据 ,
数据存储 : PySpark 中的数据都是以 RDD 对象的形式承载的 , 数据都存储在 RDD 对象中 ;
计算方法...: 大数据处理过程中使用的计算方法 , 也都定义在了 RDD 对象中 ;
计算结果 : 使用 RDD 中的计算方法对 RDD 中的数据进行计算处理 , 获得的结果数据也是封装在 RDD 对象中的 ;
PySpark...= SparkContext(conf=sparkConf)
再后 , 创建一个包含整数的简单列表 ;
# 创建一个包含列表的数据
data = [1, 2, 3, 4, 5]
再后 , 并使用 parallelize