温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下18课RDD的缓存机制。在18课中,RDD是最重要的数据模型,它的中文含义是弹性分布式数据集。RDD通过process方法或者开启方法可以将计算结果进行缓存,既可以缓存在内存中,也可以缓存在磁盘上,默认将把结果缓存在计算节点的内存中。这里需要注意的问题是,当调用这两个方法时,数据并不会立即缓存,只有触发RDD的R型算子时,该RDD的数据才会被缓存在计算节点上,并供后面的重用。了解到了基本的信息后,下面来看一下具体的操作。这里通过使用48CONTEST读取一个大的CV文件,该文件中包含92万条订单数据,触发第一次action性计算。这里没有使用到缓存调用该RDD的卡方法标识该RDD能够被缓存,触发第二次X克型计算,计算完成后将会将结果缓存在计算节点内存中,触发第三次X型计算,这时将不会触发真正计算,会直接从之前的缓存中取出结果。通过18g的we console可以观察到三次计算的耗费时间分别是2秒、2秒和98ms。现在你已经知道RDD的缓存机制了,那你知道18g的容错机制吗?欢迎评论区连讨论好了记得点加号关注赵玉强老师。
我来说两句