我通过处理每个分区来处理流(将事件保存到HBase),然后将每个RDD中的最后一个事件从驱动程序压缩到接收方,这样接收器就可以依次将其压缩到源。:158) at org.apache.spark.rdd.RDD.mapPartitions)
at org.apache.spark.api.java.JavaRDD.mapParti
在Spark上执行FileSystem操作时,是否有任何方法从火花执行器中获取mapPartitions?如果没有,那么至少有什么方法可以获得Hadoop配置来生成一个新的Hadoop FileSystem呢?spark.sql("SELECT * FROM cities").mapPartitions{ iter =>
iter.groupedBy(some-variable