在这一文章系列的第二篇中,我们将讨论Spark SQL库,如何使用Spark SQL库对存储在批处理文件、JSON数据集或Hive表中的数据执行SQL查询。...通过调用将DataFrame的内容作为行RDD(RDD of Rows)返回的rdd方法,可以将DataFrame转换成RDD。...JDBC数据源
Spark SQL库的其他功能还包括数据源,如JDBC数据源。
JDBC数据源可用于通过JDBC API读取关系型数据库中的数据。...文本文件customers.txt中的内容如下:
100, John Smith, Austin, TX, 78727
200, Joe Johnson, Dallas, TX, 75201
300,...customersByCity.map(t => t(0) + "," + t(1)).collect().foreach(println)
除了文本文件之外,也可以从其他数据源中加载数据,如JSON数据文件