温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下18课RDD的在依赖关系。RDD是18课中最重要的数据模型,中文含义是弹性分布式数据集。RDD由分区组成,每个分区被不同的18个重接点worker处理,从而支持分布式计算。这里的绿色方框表示分区,红色方框表示RDDRDD之间具有依赖关系,分别是窄依赖关系和宽依赖关系。这里重点讨论RDD的载依赖关系,它是指如果负RDD的每个分区只被指RTD的一个分区使用,那么这两个RDD就是在依赖关系。了解到了基本定义后,下面来看几个典型的展移来操作。Map算子和filter算子都是典型的展移来操作。这里的负RDD中包含三个分区,针对负RDD执行map和filter操作,生成一个子RDD,子RDD也包含三个分区,通过观察,负RDD的每个分区只被子RDD的一个。
01:00
个分区使用,因此这里的负RDD和子RDD就是在依赖关系。再来讨论一下就按操作,该操作相当于执行一个多表连接,这里有两个负RDD,负RDD1和负DD2,每个负RDD包含两个分区执行join操作,生成一个子RDD。通过观察,负RDD的每个分区只被子RDD的一个分区使用,因此这里的两个负RDD和子RDD就是在依赖关系。注意Join按操作比较特殊,有些情况的案操作是宽依赖关型,我们将会在后续的课程中为大家进一步介绍。现在你已经知道什么是10SPA卡RDD的窄依赖关系了,那你知道什么是18卡RDD的宽迎依赖关系吗?欢迎评论区里面讨论好了,记得点加号关注赵玉强老师。
我来说两句