温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据生态圈中的组件。大数据体系的核心是为了解决数据存储和数据计算的问题,因此便有了各种生态圈组件。首先讨论一下数据存储组件,它分为离线数据存储和实时数据存储。在离线数据存储中可以使用hdfs h base是基于HDFS之上的列式存储。Nasq数据库hish hadoop中提供的数据仓库,支持使用SSQL处理大数据,在实时数据存储中主要使用大数据消息系统。Kafka大数据生态圈同时提供了各种计算引擎来执行P处理的离线计算和流处理的实时计算,同时也提供了各种数据分析引擎,也支持使用SQL语句处理大数据。在批处理的离线计算中,可以通过使用map reduceduce sparkor和flink data set完成离线数据处理。目前直接使用map reduceduce的场景比较少,但是mapreduce的思想非常重要。
01:00
在流处理的实时计算中,可以通过使用storm Spark streaming和flink data streaming完成数据的实时处理。注意,这里的Spark streaming本质上是一个批处理的离线计算。为了支持使用SQL处理大数据,便有了各种大数据分析引擎,包括hive Spark SQL flink SQL Doris等。现在你已经知道大数据生态圈中的组件了,那你知道如何使用这些组件吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句