API即pyspark,所以直接启动即可
很简单使用pyspark便进入了环境:
?...(核心):
spark中的一些算子都可以看做是transformation,类如map,flatmap,reduceByKey等等,通过transformation使一种GDD转化为一种新的RDD。...可以看到使用map时实际上是[ [0,1,2,3,4],[0,1,2],[0,1,2,3,4,5,6] ]
类如切分单词,用map的话会返回多条记录,每条记录就是一行的单词,
而用flatmap则会整体返回一个对象即全文的单词这也是我们想要的...reduceByKey:有三个参数,第一个和第二个分别是key,value,第三个是每次reduce操作后返回的类型,默认与原始RDD的value类型相同,
?
?
sortByKey:排序
?...即在执行action后,Driver才会提交task到之前注册的worker上的executor一步步执行整个spark任务(定义的那些transformation啥的)
action 也有很多:
reduce