温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下Spark中的RDD。首先了解一下Spark生态圈中的组件,Spark core是Spark的执行引擎,Spark codere的数据模型是2DD Spark SQL是Spark提供的数据分析引擎,它支持使用SQL处理大数据,Spark SQL的数据模型是data frame Spark streaming是Spark的流处理引擎,它的数据模型是d stream. 这里重点讨论一下Spark code的数据模型RDD,它是Spark生态圈体系中最重要也是最核心的数据模型。RDD的全称是resilient distributed data set, 翻译成中文式弹性分布式数据集,它由分区组成,例如这里红色方框表示RDD,该RDD中包含两个分区,分区0和分区1,每一个分区被不同的sparkworker从节点处理,从而支持分布式计算。因此可以将RDD看成是一个逻辑存储结构。RRDD中的。
01:00
分区是一个物理存储结构,数据最终都是存储在分区中。现在你已经知道什么是Spark的RDD了,那你知道如何创建Spark r DD吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句