app=chrome_antiporn&ver=0.19.7.1&url=https%3A//www.google.com.pe/&cat=search-engine HTTP/1.1" 200 133...每一个计算单元需要记录其存储单元的位置, 尽量调度过去
5.在集群中运行, 需要很多节点之间配合, 出错的概率也更高, 出错了怎么办?...在 Spark 中, 其实最终 Job3 从逻辑上的计算过程是: Job3 = (Job1.map).filter, 整个过程是共享内存的, 而不需要将中间结果存放在可靠的分布式文件系统中
这种方式可以在保证容错的前提下...RDD 是可以容错的
RDD 的容错有两种方式
保存 RDD 之间的依赖关系, 以及计算函数, 出现错误重新计算
直接将 RDD 的数据存放在外部存储系统, 出现错误直接读取, Checkpoint...什么叫做弹性分布式数据集
分布式
RDD 支持分区, 可以运行在集群中
弹性
RDD 支持高效的容错
RDD 中的数据即可以缓存在内存中, 也可以缓存在磁盘中, 也可以缓存在外部存储中
数据集
RDD