什么是累加器累加器:分布式共享只写变量。(Executor和Executor之间不能读数据) 累加器用来把Executor端变量信息聚合到Driver端。...在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量...add 就是传进去的参数(int 可以自动转为long)// 循环累加rdd1.foreach(e=>{ sumAccumulator.add(e)})我的思考方式应该是,我们应该给add传入什么类型的数据...java","spark")我们可以给每个单词分配一个值 1;List(("python",1),("java",1),("python",1),("java",1),("spark",1))这样IN 的参数类型就明确了.../** * 获取Driver汇总结果 */ override def value: List[(String, Int)] = this.result.toList}当前累加器的数据都是在