RDD的每个元素中的值(value),应用函数,作为新键值对RDD的值,而键(key)着保持原始的不变
pyspark.RDD.mapValues
# the example of mapValues...使用指定的满足交换律/结合律的函数来合并键对应的值(value),而对键(key)不执行操作,numPartitions=None和partitionFunc的用法和groupByKey()时一致;...numPartitions的值是要执行归约任务数量,同时还会影响其他行动操作所产生文件的数量;
而处一般可以指定接收两个输入的 匿名函数。...pyspark.RDD.reduceByKey
使用一个新的原始数据rdd_test_2来做示范
rdd_test_2 = spark.sparkContext.parallelize([ ('A',...), ('B',[100, 40, 50, 60, 100, 4, 5, 6]) ]
此处也是用了不同分区的同样的数据来做测试,在我们讲普通RDD的 fold 操作时说过,zeroValue出现的数目应该是