MapReduce十步执行流程（详细介绍）

刘浩的BigDataPath

发布于 2021-04-13 14:27:41

7110

发布于 2021-04-13 14:27:41

文章被收录于专栏：大数据那些年

第一步：InputFormat

InputFormat 在HDFS文件系统中读取要进行计算的数据输出给Split

第二步：Split

Split 将数据进行逻辑切分，切分成多个任务。输出给RR

第三步：RR

RR 将切分后的数据转换成key value进行输出 key : 每一行行首字母的偏移量 value: 每一行数据输出给Map

第四步：Map

接收一条一条的数据（有多少行数据Map运行多少次，输出的次数根据实际业务需求而定）根域业务需求编写代码 Map的输出是 key value的 list 输出给Shuffle（partition）

---------------------------------------Map-------------------------------------------------------

第五步： partition

partition: 按照一定的规则对 **key value的 list进行分区输出给Shuffle（sort）

第六步：Sort

Sort :对每个分区内的数据进行排序。输出给Shuffle（Combiner）

第七步：Combiner

Combiner: 在Map端进行局部聚合（汇总）目的是为了减少网络带宽的开销输出给Shuffle（Group）

第八步：Group

Group: 将相同key的key提取出来作为唯一的key 将相同key对应的value提取出来组装成一个value 的List 输出给Shuffle（reduce）

------------------------------------Shuffle--------------------------------------------

第九步：reduce

reduce：根据业务需求对传入的数据进行汇总计算。输出给Shuffle（outputFormat）

第十步：outputFormat outputFormat:将最终的额结果写入HDFS

------------------------------------reduce--------------------------------------------

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019/11/14 ，如有侵权请联系 cloudcommunity@tencent.com 删除

mapreduce

javascript

大数据

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

mapreduce

javascript

大数据

登录后参与评论

0 条评论

热度