首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深入理解与应用Hadoop中的MapReduce

作者:安静的技术控

来源:CSDN

原文:

https://blog.csdn.net/a2011480169/article/details/52924955

版权声明:本文为博主原创文章,转载请附上博文链接!

现在大数据是越来越火了,而我自己研究这方面也很长时间了,今天就根据我自己的经验教会大家学会如何使用MapReduce,下文中将MapReduce简写为MR。

本篇博客将结合实际案例来具体说明MR的每一个知识点。

1、本篇博客核心内容

2、MR的基本概念

3、MR中map函数和reduce函数如何编写

4、MR程序的基本编写流程(MR的基本执行过程)

下面将用一个具体的电信业务说明MR最基本的编写过程:

实验所用数据:

具体字段描述:

业务要求:统计同一个用户的上行总流量和,下行总流量和以及上下总流量和

例如:

代码示例:

运行结果:

5、MR程序的优化方式1---分区

具体业务描述:对于上面的电信数据,统计同一个用户的上行总流量和,下行总流量和以及上下总流量和,并且手机号(11位)的信息输出到一个文件中,非手机号(8位)的信息输出到一个文件中

代码示例

运行结果:

6、MR程序的优化方式2---自定义排序

业务描述:

对于上面业务得到的统计结果:

先按照总流量由低到高排序,在总流量相同的情况下,按照下行流量和从低到高排序:

实例代码:

运行结果:

7、MR程序的优化方式3---本地归并Combine

具体业务描述:对于上面的电信数据,统计同一个用户的上行总流量和,下行总流量和以及上下总流量和,代码中要求加入本地归并优化方式:

代码示例:

运行结果:

8、MR程序的优化方式4---自定义计数器

9、如何用MR实现某个业务的方式总结

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190101B0B1OM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券