文章/答案/技术大牛

发布

首页视频【赵渝强老师】Hadoop生态圈组件

【赵渝强老师】Hadoop生态圈组件原创

2025-03-022025-03-02 22:31:09播放685

点赞0 收藏 0

【赵渝强老师】Hadoop生态圈组件

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们来讨论一下大数据哈杜普生态圈系统。首先了解一下哈杜普的基本知识。哈杜普主要用于离线数据存储和离线数据计算，是一个更容易开发和运行大规模数据的软件平台。该平台使不是面向对象变成源Java实现，具有良好的可疑致性。用户可以在不了解分布式底层细节的情况下开发分布式，用程性来处理大数据。这里再介绍一下哈多普的历史，谷歌曾经发表了两篇论文，第一篇是GIFS，它的全称是谷歌发system，它代表谷歌的文件系统。第二篇是马克，就是这是一个分布式计算模型，用于解决大数据的计算问题。根据这两篇论的思想，阿卡廷开发了开源的哈多普姆，他曾经是阿帕琴软件基金会的主席，了解到了这些基本的知识哈，下面讨论一下哈多普。
01:00
生态圈体系中包含的组件以及他们各自的功能。哈杜普生态圈的最底层是分布式文件系统HDFS全称是的system HT FS来源于谷的GFS在HDFS之上是是存储的数据库H，它是谷歌big table想的一个具体实现。Big table的大表会把所有数据存入一张表中，从而提高数据查询的效率。基于HD和H之上便是哈普的计算执行引擎马注意，谷歌发表的马Du论文是一种分布式计算模型，它与编程语言无关，只是在哈多普中使用了Java编程语言，实现了map producedu计算模型。因此在hard中开发出的map producedu将会是一个Java程序。通过使用既可以处理H的数据，也可以处理HD数据，从哈2.0开始需要运行在Yan之上12S哈多普提供的一个资源和任务管理调度的平台，有了Du计算引擎的支持，哈都提供了数据分析引擎，因为简化，数据的分析和处理和P都是这样的引擎。2的区别是是基于HDS之上的数据仓库，支持使用CQ处理数据，而pig支持是皮拉引擎，目前使用pig的场景比较少。在哈都库生态圈中还提供了数据采集引擎，用于支持ETL的数据采集，是group，主要针对关系型数据库。
02:43
它是一个数据交换工具，通过使用group可以完成关系型数据库与大数据体系的数据交换，从而支持ETL操作。弗罗也是一个数据采集引擎，但它主要针对文本类型的日志数据。注意是group底层是基于mapdu斯人的，而弗罗姆不是。
03:06
在整个哈多普生态圈儿的左边，是基于网页的统一管理工具Hu，通过使用Hu能够管理哈多生态圈中的所有组件。在整个哈多布生态圈的右边是分布式协调服务租K帕，它在整个大数据体系中非常重要，通过使用租K帕可以解决大数据体系的单点故障问题，从而实现ha的高可用。最后需要提醒的是，这里并没有把哈普生态圈中的所有组件画出来，因为有些组件并不常用。现在你已经知道大数据哈德普生态圈中的组件了，那你知道大数据10SPA克和弗林克生态圈中包含哪些组件吗？欢迎评论区有来讨论。好了记得点加号关注赵玉强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（53/60）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4680

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3770

1分34秒

【赵渝强老师】Hive的内部表

3730

1分25秒

【赵渝强老师】Hive的外部表

3690

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3720

3分53秒

【赵渝强老师】数据仓库与大数据

9770

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3540

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3930

1分28秒

【赵渝强老师】Kafka的主题与分区

3530

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3660

2分14秒

【赵渝强老师】MapReduce计算模型

3580

2分33秒

【赵渝强老师】Hive的体系架构

3790

2分22秒

【赵渝强老师】HBase的表结构

3570

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3620

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3880

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3950

2分22秒

【赵渝强老师】数据湖的流批一体架构

3640

2分53秒

【赵渝强老师】HDFS数据上传的过程

3510

3分20秒

【赵渝强老师】Hadoop的本地模式

3850

2分43秒

【赵渝强老师】HDFS数据下载的过程

3700

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3430

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3600

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3740

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8390

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8140

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

3590

4分11秒

【赵渝强老师】大数据平台的Lambda架构

1.4K0

3分41秒

【赵渝强老师】大数据平台的Kappa架构

3460

3分54秒

【赵渝强老师】Hadoop生态圈组件

6850

3分32秒

【赵渝强老师】Spark生态圈组件

3700

3分35秒

【赵渝强老师】Flink生态圈组件

3610

1分4秒

【赵渝强老师】大数据交换引擎Sqoop

3620

1分22秒

【赵渝强老师】Hadoop HDFS的快照

3560

1分31秒

【赵渝强老师】大数据日志采集引擎Flume

3580

1分38秒

【赵渝强老师】大数据的湖仓一体架构

1.1K0

1分23秒

【赵渝强老师】Hadoop的伪分布部署模式

2640

【赵渝强老师】Hadoop生态圈组件原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐