首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分布式了,计算也得跟上!

1

前情提要

经过一番努力,张大胖和Bill成功地实现了一个分布式的文件系统:HDFS。

(参见《HDFS的诞生》)。

这个系统可以把大文件分成一个个片段,分散地存储在各个服务器上,每个片段还额外有2个或多个备份。

虽然把文件分了片,但在客户端软件看来,仍然是对一个文件进行操作, 并不知道HDFS在背后搞的“伎俩”。

于是张大胖便把海量的Web日志文件存储到了HDFS当中。

2

并行计算

张大胖决定先使用HDFS完成一个小目标:统计每个URL被访问了多少次

刚一开始,就遇到了棘手的问题:数据量太大,如果只有一台机器读出所有文件,在同一台机器上进行处理,还是慢得要死。

师傅Bill说:“我们在编程中有个非常重要的思想就是‘Divide and Conquer’,现在就可以用到这里来了。”

“分而治之? ” 张大胖说,“我们不是已经把文件分而治之,变成分片,放到不同机器上了吗?”

“那只是数据,现在我们让计算程序也分布式,并且要尽可能地让计算靠近数据,降低网络流量的开销!比如你的小目标,是为了统计URL的访问次数,我们就把这个计算程序发到每个分片所在的机器上,然后在每个机器上并行地做计算, 像这样:“

“虽然是并行计算, 但是计算出来的结果还是杂乱无章啊,有什么用?”

“你想想,要是把他们按URL分下组呢?” Bill 说。

(注:正式的术语不叫group by ,叫shuffle。)

“奥,明白,这么做以后,数据之间互相独立, 又可以并行计算了!”

张大胖接着Bill的图继续往下画:

“对,这样一来我们的计算也变成分布式的了,并且每个程序都比较简单,程序1的职责是:把该分片中的URL给提取出来,记一个数。 程序2的职责是累计每个URL的访问量。” Bill 说道。

3

深入讨论

“有意思,看来保持程序的并行执行是关键,我注意到一个现象,那就是程序1和程序2都不维护内部状态,他们就像一个函数,根据输入进行计算,输出结果,就这么简单。”

“ 只有这样,才有最大的灵活性嘛,程序1的各个副本之间不互相依赖, 程序2也会如此, 所以我们才能把程序1和程序2部署到任意一台机器上去运行。” Bill说。

“还有,程序1的输出为什么把每个URL访问量都记为1呢?我们为什么不能把属于同一个URL的访问量在那个节点上先做个求和呢?”

“对于我们这个简单的情况,是可以先求和,然后发给第二个程序继续统计,也没有什么错误, 但是对于其他情况,例如求平均数,那就不能先做平均了,得留给第二个程序去做,不然就错了。”

张大胖心里盘算了一下,假设有三个数字,a= 20,b=10,c = 30, 他们三个的平均数是20,但是如果先计算a+b的平均数,再和c 进行平均,即((a+b)/2 + c)/2,结果是22.5,就和之前不一样了。

“你说过分布式很麻烦,我想到一个问题,如果某个程序没运行完就死翘翘了,或者那个程序所在的机器down掉了,怎么办呢?”

“魔鬼都是在细节当中,一遇到异常分支,我们的程序就变得异常复杂。 很明显,我们得跟踪每个程序的状态,如果发现它不可用了,就得在另外一个机器上重新运行它。 我们甚至可以故意多开几个程序,让他们竞争,谁运行得最快,就以谁的结果为准。”

“唉,这么多事情,看来又得弄个框架来处理了!” 张大胖感慨道。

“那是自然,什么是框架? 框架自然是把基础设施做好,把重复的工作都做了,让用户写的程序越简单越好,我们的框架会把程序1和程序2分布到各个机器上并行运行,还会监控他们的状态。 还有那个所谓的分组操作,也得我们处理,所以这必然是个框架,我想可以把它叫做MapReduce。”

4

MapReduce

“MapReduce? 就是你上次给我说的那个东西? ”

“对啊, 如果我们把程序1称为Mapper, 把程序2称为Reducer,那合起来不就是MapReduce 了。 ” Bill笑着说道。

“怎么会起了这么一个古怪的名字呢?” 张大胖撇撇嘴。

“Map 和 Reduce最早是函数式编程中的概念,所谓map ,就是这个样子: ”

张大胖说:“不就是把一个函数施加到一组数据上,把它变成另外一组数据嘛!”

“是啊,map 在广义上来讲,就是数据的变换,把一个数据变成另外一个, 回到我们的例子,我们的程序1接收的输入其实就是一行行的日志记录,对每一行日志,程序1从中提取URL,变换成另外一个结构:(URL, 1), 输出给后续处理。所以也是一种map操作。”

“那reduce 呢?”

“reduce 就是给定一个函数和初始值,每次对列表中的一个元素调用该函数,不断地“折叠”一个列表,最终把它变成一个值,以最简单的求和为例,如果初始值为0 , 列表是[1,2,3,4],计算过程如下:

“明白了,思想虽然很简单, 但应用到我们的HDFS当中,让程序并行化运行, 威力巨大啊!”

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180305B19Q2Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券