温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下Spark中的data frame. 首先了解一下Spark生态圈中的组件。Spark codere是Spark的执行引擎,Spark codere的数据模型是2DD Spark SQL是Spark提供的数据分析引擎,它支持使用SQL处理大数据,Spark SQL的数据模型是data frame Spark streaming是Spark的流处理引擎,它的数据模型是d stream. 这里重点讨论一下Spark SQL的数据模型data frame data frame的本质是一张表,它由表结构skima和数据2DD两个部分组成。通过创建data frame便可以在Spark SQL中使用标准的SQL语句来查询和分析数据。这里通过一个具体事例来说明如何创建data frame. 在Root people文件中保存了三个人的姓名和年龄,这是一个结构化数据。通过使用Spark session的read方法可以直接创建一个data frame.
01:00
这里定义的常量people就是一个data frame, 可以把它看成是一张表,表中包含两个列,分别是H和name,其中H的类型是整数,Name的类型是字符串。现在你已经知道什么是data frame了,那你知道如何通过SQL语句查询存储在data frame中的数据吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句