hadoop集群调优分两个方面,map和reduce
map调优:
map 任务执行会产生中间数据,但这些中间结果并没有直接IO到磁盘上,而是先存储在缓存(buffer)中,并在缓存中进行一些预排序来优化整个...当map输出中间结果的时候也可以配置压缩.
reduce调优:
reduce 运行阶段分为shuflle(copy) sort reduce, shuffle 阶段为reduce 全面拷贝...任务,而是当job执行完第一个map执行完才开始运行的.reduce 在shuffle阶段 实际上是从不同的并且已经完成的map上去下载属于自己的这个reduce,由于map任务数很多,所有这个copy...5个reduce的线程去拷贝map任务的执行结果.所以当map任务数很多的情况下可以适当的调整该参数,这样可以让reduce快速的获得运行数据来完成任务。...,默认为0.当默认时reduce是全部从磁盘开始读处理数据
总结:总之map reduce调优的一个原则就是 给shuffle 尽量多的内存,给中间结果多些内存,给并行任务数调大(当然一些都得因人而异,