(),unpersist()
数据保存:saveAsTextFile(),saveAsObjectFile()
常用的数据转换操作,如map(),flatMap(),mapPartitions()等
数据分组...、聚合操作,如partitionBy(),groupByKey(),reduceByKey()等
RDD间join操作,如join(), fullOuterJoin(), leftOuterJoin()...等
排序操作,如sortBy(), sortByKey(), top()等
Zip操作,如zip(), zipWithIndex(), zipWithUniqueId()
重分区操作,如coalesce...Scala API 中RDD的每个分区的数据由iterator来表示和访问,而在SparkR RDD中,每个分区的数据用一个list来表示,应用到分区的转换操作,如mapPartitions(),接收到的分区数据是一个...如何让DataFrame API对熟悉R原生Data Frame和流行的R package如dplyr的用户更友好是一个有意思的方向。