(此时是元素)统计{reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行binary_function的reduce操作,因此,Key相同的多个元素的值被reduce为一个值...,最后再同过map把去重后的元素挑出来。
A4 测试代码
import org.apache.spark....是初设定的partition数
val rdd = sc.parallelize(List(1, 2, 3, 3, 3, 3, 8, 8, 4, 9), 3)
//因为distinct实现用...reduceByKey故其可以重设定partition数,这里设定4
rdd.distinct(4).foreach(println)
//这里执行时,每次结果不同,分区在4以内,每个分区处理的元素也不定...解释:这里仅供理解,在实际运行中,分区会随机使用以及每个分区处理的元素也随机,所以每次运行结果会不同。