`aggregate(zeroValue, seqOp, combOp)`
前言
提示:本篇博客讲的是RDD的操作中的行动操作,即 RDD Action
主要参考链接:
1.PySpark RDD Actions...pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...3]个位置的数字为顺序
5.takeSample(withReplacement, num, seed=None)
返回此 RDD 的固定大小的采样子集
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中...和map类似,但是由于foreach是行动操作,所以可以执行一些输出类的函数,比如print操作
pyspark.RDD.foreach
10.countByValue()
将此 RDD 中每个唯一值的计数作为...(20,1,2,3),1), ((20,2,2,2),1), ((10,1,2,4),2)]
11.fold(zeroValue, func)
使用给定的func和 初始值zeroV把RDD中的每个分区的元素聚合