Hadoop
架构:
Hadoop就是谷歌三宝的开源Java实现,'谷歌三宝'为谷歌的三篇论文(注意:对应的源码谷歌没有开源):MapReduce,GFS,Bigtable。Hadoop如今已经是大数据框架的代名词了。
Hadoop MapReduce对应Google MapReduce,是一种并行计算的编程模型,用于作业调度。
优点:MapReduce分布式编程模型屏蔽了底层实现。允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。
场景:用于处理海量数据的场景。
HBase对应BigTable,是提供结构化数据服务的分布式数据库。HBase有两种访问方式:通过行键进行随机访问;通过map-reduce脱机或批访问。
优点:实时查询,参考谷歌实时搜索。
场景:Hbase适用于随机读写存储在HDFS里的数据的场景。
HDFS对应GFS,Hadoop Distributed File System,分布式文件系统,为上层提供高效的非结构化存储服务。
优点:HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上而形成分布式系统。
场景:HDFS适合于存储一次后数据不再变动,再进行多次分析的场景。
谷歌三论文
MapReduce:映射归纳
BigTable:BigTable 是建立在 GFS 和 MapReduce 之上的。每个Table都是一个多维的稀疏图。
GFS:
领取专属 10元无门槛券
私享最新 技术干货