,针对所有的kv进行分组,可以把相同的k的聚合起来。...比如,想要统计分区内的最大值,然后再全部统计加和:
scala> var data = sc.parallelize(List((1,1),(1,2),(1,3),(2,4)),2)
data: org.apache.spark.rdd.RDD...V)和(K,W)的数据集调用,返回相同的K,所组成的数据集。...V)和(K,W)的数据集上调用,返回一个 (K, (Seq[V], Seq[W]))元组的数据集。...分区的元素将会被当做输入,脚本的输出则被当做返回的RDD值。