温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据技术的理论基础。大数据的核心思想采用的是分布式集群来解决海量数据存储和海量数据计算的问题。Googlego曾经发表了三篇论文,也有人把这三篇论文叫做Google的三驾马车。这三篇论文奠定了大数据、分布式存储和分布式计算的理论基础。第一篇论文是GDFS,它的全称是Google file system, 正因为有了这篇论文,才有了HDFSHDFS的全称是hadoop distributed file systemg FS和HDFS都是分布式文件系统,可用于解决大数据的存储问题。第二篇论文是map reduceduce计算模型,Google最早使用该计算模型来解决page rank网页排名的问题。注意,Map reduceduce本身与编程语言无关,只是在hadoop中使用了Java语言,实现了map reduce计算模型第三篇论文是big table大表,他将所有数据存入一张表中。正因为。
01:00
有了这篇论文,便有了h base, 它是一个劣势存储的nasco数据库。有了hdfs map produceduce和h base, 便形成了大数据第一代引擎hadoop中最核心的三个部分。尽管在目前的大数据生态圈体系中,Hadoop的一些组件可能使用的比较少,但是他们的思想和原理非常重要,这对于我们深入的学习大数据生态圈体系将有非常大的帮助。因此,学习大数据的第一步就需要掌握哈duop生态圈体系。现在你已经知道大数据技术的理论基础了,那你知道如何搭建哈diop环境吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句