MapReduce 数据模型解析
MapReduce数据模型 :
-- 两个阶段 : MapReduce 的任务可以分为两个阶段, Map阶段 和 Reduce阶段;
-- 输入输出 : 每个阶段都使用键值对作为输入...和 输出, IO类型可以由程序员进行选择;
-- 两个函数 : map 函数 和 reduce 函数;
MapReduce作业组成 : 一个MapReduce 工作单元, 包括 输入数据, MapReduce...的输出直接输出到 HDFS中;
-- reduce数量 : reduce数量是特别指定的, 在配置文件中指定;
MapReduce数据流框图解析 :
-- 单个MapReduce的数据流 :...: Streaming在文本处理模式下, 有一个数据行视图, 非常适合处理文本;
-- Map函数的输入输出 : 标准流 一行一行 的将数据 输入到 Map 函数, Map函数的计算结果写到 标准输出流中...;
-- Map输出格式 : 输出的 键值对 是以制表符 分隔的行, 以这种形式写出的标准输出流中;
-- Reduce函数的输入输出 : 输入数据是 标准输入流中的 通过制表符 分隔的键值对 行, 该输入经过了