温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
今天来讨论一下学习大数据的时候要不要学习哈杜普。先说结论,学习大数据肯定是要学习哈杜普自身,并且第一步就应该学习哈杜普,这一点非常重要。哈普作为第一代大数据引擎,是在整个大数据体系中非常重要的一个组成部分,大数据体系研究的是两个方面的问题。一个是数据的存储,另外一个是数据的计算。在海量数据的情况下,需要使用分布式集群来解决存储和计算的问题。哈多普提供了HDFS的分布式文件系统来解决数据的存储问题,并支持map是计算模型来解决数据计算问题。这种思想和原理也被后续的大数据框架所借鉴。例如斯Spark的核心数据模型是RDD,它由分区组成,并且每个分区被不同的10SPARK重叠点所处理,从而支持分布式计算。RDD被拆分成是一个一个的分区,这种拆分合并的思想就来源于market predictducing. 因此,要全面系统的学习大数据,第一步就要从哈杜op学习,有了哈杜op的基础在学习。
01:28
比其他大数据技术就会相对容易,并且在学习大数据的时候,大家会感觉到越学习到后面就会越简单。因为不管是哪一种大数据技术,其核心原理和思想都是一样的。因此我再重复一遍,系统学习大数据的第一步就是要学习哈杜,尽管在哈杜op体系中,有一些技术可能在目前看来有点过时了,比如它的计算引擎market produ. 在大数据开发中,目前使用market produce的情况相对会比较少,更多的时候是使用斯巴克姆或者使用弗林克,但是马菲思想是非常重要的,掌握这个思想以后呢?
02:18
对于学习斯巴克姆和弗林克是非常有帮助的。这里呢,我举一个简单的一个例子,曾经有个学员问我,什么是10SPARK的下one,也就是Spark的洗牌,能问出这个问题就说明这个学员没有了解过market producece的机制。马P就是,他最大的问题不是处理数据的方式,而是在他处理过程当中会存在大量的磁盘读写操作,从而影响了它的执行的效率。为了解决这个问题,便有了基于内存的计算引擎10SPA科和后面的福林克。但不管是marketdu还是10SPA克还是弗林克,其本质都是分布式计算,核心的原理和思想都是一样的。好了,介绍到这里,上面呢说了一下个人的观点,屏幕前的你能不能说一下自己的看法和观点呢?欢迎评论区留言讨论,记得点加号关注赵玉强老师。
我来说两句