, 指的是 二元元组 , 也就是 RDD 对象中存储的数据是 二元元组 ;
元组 可以看做为 只读列表 ;
二元元组 指的是 元组 中的数据 , 只有两个 , 如 :
("Tom", 18)
("Jerry...", 12)
PySpark 中 , 将 二元元组 中
第一个元素 称为 键 Key ,
第二个元素 称为 值 Value ;
按照 键 Key 分组 , 就是按照 二元元组 中的 第一个元素 的值进行分组...Y ;
具体操作方法是 : 先将相同 键 key 对应的 值 value 列表中的元素进行 reduce 操作 , 返回一个减少后的值,并将该键值对存储在RDD中 ;
2、RDD#reduceByKey..., 统计文件中单词的个数 ;
思路 :
先 读取数据到 RDD 中 ,
然后 按照空格分割开 再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个 二元元组 列表 , 列表中每个元素的 键...', 'Jerry']
再后 , 将 rdd 数据 的 列表中的元素 转为二元元组 , 第一个元素设置为 单词 字符串 , 第二个元素设置为 1
# 将 rdd 数据 的 列表中的元素 转为二元元组,