文章/答案/技术大牛

发布

首页视频【赵渝强老师】数据仓库与大数据

【赵渝强老师】数据仓库与大数据原创

2024-08-102024-08-10 11:03:13播放977

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
在我们本期视频更新里面。我们来给大家讨论一下数据仓库与大数据的关系，因为很多同学在初学大数据的时候就不理解，为什么我们学习大数据需要对数据仓库要有一定了解呢？因此本期视频更新我们就来给大家讨论一下这样的一个问题，首先讨论一下什么叫数据仓库，从传统意义上来说，数据仓库。它的本质就是一个数据库，我们可以利用传统的关系型数据库，比如or mysql来创建一个数据仓库，而在数据仓库当中，一般的情况下我们都只会通过执行查询语句来去分析数据，来去处理数据。因此数据仓库它是一个o lap的应用场景，也就是联机分析处理场景。那这个呢，是我们通常意义上理解的数据仓库。而目前随着大数据的心情，构建数据仓库的主要方式就是使用大数据的技术来进行构建，比如我们可以使用hard do sparkcomlink, 或者使用no circle数据库来去构建我们的离线数据仓库，或者去构建我们的实时数据仓库。因此我们讲大数据体系当中的各个组件，包括哈多组件。
01:31
包括18个组件，包括flink组件等等等等，这些大数据组件它都可以看成是数据仓库的一种实现方式，而我们不用这种实现方式可以吗？当然可以，刚刚提到我们可以使用传统的关系型数据库来进行构建，但是通过使用传统的关系型数据库构建数据仓库的时候，我们只能够存储这种结构化数据，而现在通过大数据方式构建数据仓库。
02:06
我们既能够存储结构化，也能够存储非结构化数据，因此从使用的广泛性上来说，使用大数据方式进行构建它更加的广泛。并且还有一点是什么呢？我们在使用大数据构建数据仓库的时候，刚刚提到分为离线数据仓库，还有实时数据仓库，因此它有几种不同的架构，比如说有拉姆达架构，还有我们的卡A架构，那在拉姆达架构里面就是分为离线数仓和实时数仓两套体系，而在卡帕架构里面，它只有实时部分，没有离线部分。因此呢，基于这样的原因，卡帕架构在处理离线数据的时候，它的吞吐量就会非常的差，那什么叫吞吐量呢？吞吐量是评价系统性能指标非常重要的一方面，它指的是在单位时间之内系统的输出。
03:07
和书的比值，如果这比值越高，就表示吞吐量越大，就表示系统的什么处理能力越强。刚刚提到由于在卡帕架构里面没有离线部分，因此呢，他在处理离线数据的时候，吞吐量就会非常的低。因此现在通过大数据体系构建数据仓库的主要方式就是我们的拉姆达加工，它分为离线部分，分为我们的实时部分。通过刚刚的这个介绍，相信大家已经对数据仓库和大数据的关系，那么有了一个比较清楚的认识，那我们就需要通过系统的学习来掌握这个里面的内容。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（13/60）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4680

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3770

1分34秒

【赵渝强老师】Hive的内部表

3730

1分25秒

【赵渝强老师】Hive的外部表

3690

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3720

3分53秒

【赵渝强老师】数据仓库与大数据

9770

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3540

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3930

1分28秒

【赵渝强老师】Kafka的主题与分区

3530

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3660

2分14秒

【赵渝强老师】MapReduce计算模型

3580

2分33秒

【赵渝强老师】Hive的体系架构

3790

2分22秒

【赵渝强老师】HBase的表结构

3570

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3620

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3880

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3950

2分22秒

【赵渝强老师】数据湖的流批一体架构

3640

2分53秒

【赵渝强老师】HDFS数据上传的过程

3510

3分20秒

【赵渝强老师】Hadoop的本地模式

3850

2分43秒

【赵渝强老师】HDFS数据下载的过程

3700

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3430

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3600

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3740

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8390

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8140

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

3590

4分11秒

【赵渝强老师】大数据平台的Lambda架构

1.4K0

3分41秒

【赵渝强老师】大数据平台的Kappa架构

3460

3分54秒

【赵渝强老师】Hadoop生态圈组件

6850

3分32秒

【赵渝强老师】Spark生态圈组件

3700

3分35秒

【赵渝强老师】Flink生态圈组件

3610

1分4秒

【赵渝强老师】大数据交换引擎Sqoop

3620

1分22秒

【赵渝强老师】Hadoop HDFS的快照

3560

1分31秒

【赵渝强老师】大数据日志采集引擎Flume

3580

1分38秒

【赵渝强老师】大数据的湖仓一体架构

1.1K0

1分23秒

【赵渝强老师】Hadoop的伪分布部署模式

2640

【赵渝强老师】数据仓库与大数据原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐