温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:01
大家好,今天来讨论一下如何学习大数据,在学习之前要对大数据的技术方向要有一个大概的了解。大数据主要分为大数据平台方向和大数据分析方向。大数据平台方向研究的是底层的基础架构,它需要提供数据存储和数据计算能力,大数据分析方向则主要是利用Python这样的语言来进行数据处理和数据可视化操作。下面将重点讨论一下如何学习大数据平台,大数据平台中包含哈多普斯、巴克和弗林可这样的生态圈系统。那么如何进行学习呢?第一,要有一定的基础,这里的基础主要是指的是Java编程语言,由于大数据平台都是构建在Java之上。
01:02
因此,掌握必要的Java基础知识对学习大数据平台是非常有帮助的。这里不需要掌握很高深的Java知识,只需要掌握基本的Java面向对象编程即可。除了Java以以外,如果能够再掌握一些scom和Linux的支持就更好。第二,需要大致了解大数据生态圈划系统中各个组件的功能以及彼此之间的关系。例如它都控主要用于离线数据存储和离线数据计算,其中又包含了HD FS h base hive等等这样的组件。而十八克和弗林N肯则是大数据的计算引擎,18g偏向离线计算,而弗林克偏向实时计算。第三,在学习每个具体组件时,需要重点掌握它的体系架构。这里以18课来举例说明。在18课的体系架构中,包含主节点master和重节点worker master负责管理集群并接收客户端的任务请求,Worker负责执行任务,而是巴克核的核心数据模行是。
02:29
至RDD,它由分区组成,每一个分区被不同的worker处理,从而支持分布式计算。只有掌握了每个组件的体系架构,才能更加深入的学习其中的知识。第4,搭建实验环境,这个环节非常重要,只有通过做实验才能真正验证自己是否掌握其中的知识。以上是赵老师提供的几点参考意见,欢迎大家评论区留言,讨论好了记得点加home关注赵玉强老师。
我来说两句