我们提供了sql.functions下的函数来生成包含从分配中抽取的独立同分布(i.i.d)的值的字段, 例如矩形分布函数uniform(rand)和标准正态分布函数standard normal(randn...可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息....也就是说, 不同的names和items的数量不能太大. 试想一下, 如果items包含10亿个不同的项目:你将如何适应你的屏幕上一大堆条目的表?...5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....我们已经实现了Karp等人提出的单通道算法. 这是一种快速的近似算法, 总是返回出现在用户指定的最小比例的行中的所有频繁项目. 请注意, 结果可能包含错误信息, 即出现了不频繁出现的项目.