我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....sqlContext.range(0, 10).withColumn('uniform', rand(seed=10) * 3.14)
In [3]: # 你可以参照(reference)一个列, 或者提供一个列名...如果你不能等待, 你也可以自己从1.4版本分支中构建Spark: https://github.com/apache/spark/tree/branch-1.4 通过与Spark MLlib更好的集成,