温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
在我们本期视频更新里面。我们来给大家讨论一下数据仓库与大数据的关系,因为很多同学在初学大数据的时候就不理解,为什么我们学习大数据需要对数据仓库要有一定了解呢?因此本期视频更新我们就来给大家讨论一下这样的一个问题,首先讨论一下什么叫数据仓库,从传统意义上来说,数据仓库。它的本质就是一个数据库,我们可以利用传统的关系型数据库,比如or mysql来创建一个数据仓库,而在数据仓库当中,一般的情况下我们都只会通过执行查询语句来去分析数据,来去处理数据。因此数据仓库它是一个o lap的应用场景,也就是联机分析处理场景。那这个呢,是我们通常意义上理解的数据仓库。而目前随着大数据的心情,构建数据仓库的主要方式就是使用大数据的技术来进行构建,比如我们可以使用hard do sparkcomlink, 或者使用no circle数据库来去构建我们的离线数据仓库,或者去构建我们的实时数据仓库。因此我们讲大数据体系当中的各个组件,包括哈多组件。
01:31
包括18个组件,包括flink组件等等等等,这些大数据组件它都可以看成是数据仓库的一种实现方式,而我们不用这种实现方式可以吗?当然可以,刚刚提到我们可以使用传统的关系型数据库来进行构建,但是通过使用传统的关系型数据库构建数据仓库的时候,我们只能够存储这种结构化数据,而现在通过大数据方式构建数据仓库。
02:06
我们既能够存储结构化,也能够存储非结构化数据,因此从使用的广泛性上来说,使用大数据方式进行构建它更加的广泛。并且还有一点是什么呢?我们在使用大数据构建数据仓库的时候,刚刚提到分为离线数据仓库,还有实时数据仓库,因此它有几种不同的架构,比如说有拉姆达架构,还有我们的卡A架构,那在拉姆达架构里面就是分为离线数仓和实时数仓两套体系,而在卡帕架构里面,它只有实时部分,没有离线部分。因此呢,基于这样的原因,卡帕架构在处理离线数据的时候,它的吞吐量就会非常的差,那什么叫吞吐量呢?吞吐量是评价系统性能指标非常重要的一方面,它指的是在单位时间之内系统的输出。
03:07
和书的比值,如果这比值越高,就表示吞吐量越大,就表示系统的什么处理能力越强。刚刚提到由于在卡帕架构里面没有离线部分,因此呢,他在处理离线数据的时候,吞吐量就会非常的低。因此现在通过大数据体系构建数据仓库的主要方式就是我们的拉姆达加工,它分为离线部分,分为我们的实时部分。通过刚刚的这个介绍,相信大家已经对数据仓库和大数据的关系,那么有了一个比较清楚的认识,那我们就需要通过系统的学习来掌握这个里面的内容。
我来说两句