我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....受到R语言和Python中数据框架的启发, Spark中的DataFrames公开了一个类似当前数据科学家已经熟悉的单节点数据工具的API. 我们知道, 统计是日常数据科学的重要组成部分....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布....如果你不能等待, 你也可以自己从1.4版本分支中构建Spark: https://github.com/apache/spark/tree/branch-1.4 通过与Spark MLlib更好的集成,