不久前在图书馆无意中发现了由谷峪、于戈和鲍玉斌等人所著的《大规模图数据的分布式处理》这本书,这几天认真看了一部分,受益良多,故推荐给图计算系统研究的同学们。
书中对大规模图数据处理所面向的问题与挑战做了剖析。详细介绍了分布式图计算系统的计算模型和执行机制,包括MapReduce计算框架,BSP计算框架及其分解框架GAS模型。借助具体的系统实例,对图查询、消息通信、同步控制和容错管理等图计算系统设计的核心部分做了全面的阐述。其中第十章更是一一枚举了2015年之前,全球各个研究机构和产业界在大规模图数据处理方面的贡献,进行了分类和整理帮助我们把握图计算系统发展的脉络和存在的问题。
对于科研工作者:提到的很多创新工作都值得我们参考,还有很多工作需要细化,比如近似的分布式计算方法[1]、增量的动态图计算技术[2]、图数据库和图计算系统的统一、提出新的图计算模型等。对于产业界的朋友:可以借鉴书中介绍的BS-SBP系统,对自研大规模图处理系统具有指导价值。提到的很多细节也是在设计过程中值得逐一考虑的,几个详细描述的图算法对实际的业务具有参考价值。
不得不遗憾的指出,可能由于时间仓促,书中有不少错别字,并且有些介绍不够全面,甚至存在错误。对单机图计算系统介绍的较少,但实际上它们对分布式图计算系统的设计具有极大的启发意义。总得来说,书中引用了302篇比较新的文献,工作量极大,是难得的一手资料总结,值得品读和学习。
[1] FrogWild: fast PageRank approximations on graph engines. PVLDB 2015
[2] Fast incremental SimRank on link-evolving graph. ICDE 2014
领取专属 10元无门槛券
私享最新 技术干货