与 SparkSession
Pyspark学习笔记(四)弹性分布式数据集 RDD(上)
Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
Pyspark学习笔记(五)RDD操作(一)...二.常见的转换操作表 & 使用例子
0.初始的示例rdd,
我们这里仍然以上一篇博文中的rdd_test作为示例,这样能更好的与之前讲的内容联系起来
[ ((10,1,2,3), (10,1,2,4),...(10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
1.count()
该操作不接受参数,返回一个long类型值,代表rdd的元素个数
pyspark.RDD.count...正好测试一下 rdd_test 经过 map 和 flatMap 之后的不同之处
# the example of count
rdd_map_test = rdd_test.map(lambda x:...x)
print("count_test1\n", rdd_map_test.count())
# out
1
# the example of count
rdd_flatmap_test = rdd_test.flatMap