大数据学院院长

大数据技术

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Hadoop的HDFS除了最基本的上传数据和下载数据的功能以外，还提供了很多高级特性用于方便使用和操作，主要有：回收站、快照、配额管理、安全模式、权限管理，同时从Hadoop 3.x开始还提供了纠删码技术。视频讲解如下：

【赵渝强老师】Hadoop HDFS的回收站和快照

Hadoop的安装和部署是大数据生态圈体系中最麻烦的一个。Hadoop部署完成后，进一步地部署Spark和Flink就非常容易了。Hadoop的部署模式分为本地模式、伪分布模式和全分布模式。在学习完成了ZooKeeper的相关内容后，还将进一步地学习Hadoop HA的部署。这里重点讨论一下Hadoop的伪分布部署模式。视频讲解如下：

【赵渝强老师】Hadoop的伪分布部署模式

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

【赵渝强老师】基于Hudi的大数据湖仓一体架构

Apache Flume支持采集各类数据发送方产生的日志信息，并且可以将采集到的日志信息写到各种数据接收方。其核心是把数据从数据源（Source）收集过来，在将收集到的数据送到指定的目的地（Sink）。为了保证输送的过程一定成功，在送到目的地（Sink）之前，会先缓存数据（Channel）,待数据真正到达目的地（Sink）后，Flume再删除自己缓存的数据。

【赵渝强老师】大数据日志采集引擎Flume

Hadoop HDFS的快照（Snapshot）是一个全部文件系统、或者某个目录在某一时刻的镜像。这里其实可以把HDFS的快照理解成是HDFS提供的一种备份机制。快照应用在以下场景中：

【赵渝强老师】Hadoop HDFS的快照

Sqoop是SQL To Hadoop的简称，它是一款开源的工具，主要用于在Hadoop（Hive）与传统的数据库（Oracle、MySQL等）间进行数据的传递。通过使用Sqoop可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop是基于MapReduce完成数据的交换，因此在使用Sqoop之前需要部署Hadoop环境；另一方面，由于Sqoop交换的是关系型数据库中的数据，因此底层需要JDBC驱动的支持。

【赵渝强老师】大数据交换引擎Sqoop

HBase的逻辑存储结构主要包括：命名空间（NameSpace）、表（Table）和列族（Column Family）。视频讲解如下：

【赵渝强老师】HBase的逻辑存储结构

Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机）之上，并兼容现有的Java程序。因此，要安装Scala环境之前，首先需要安装Java的JDK。学习Scala编程语言，将为后续学习Spark和Flink奠定基础。视频讲解如下:

【赵渝强老师】Scala编程语言

在Hadoop HDFS的体系架构中，包含了三个组成部分。它们分别是：NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站，它说明了HDFS的体系架构。

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

Kafka消费者组中的消息消费模型有两种，即：推送模式（push）和拉取模式（pull）。视频讲解如下：

【赵渝强老师】Kafka消息的消费模式

消费者就是从Kafka集群消费数据的客户端，下图展示了一个消费者从主题中消费数据的模型。

【赵渝强老师】Kafka的消费者与消费者组

Kafka生产者有三种方式进行消息的发送，这三种方式区别在于对于消息是否正常到达的处理。视频讲解如下：

【赵渝强老师】Kafka生产者的消息发送方式

Kafka的生产者Producer将消息序列化之后，发送到对应主题的指定分区上。下图为展示了生产者的执行过程。

【赵渝强老师】Kafka生产者的执行过程

Spark RDD通过persist方法或cache方法可以将计算结果的缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD才会被缓存在计算节点的内存中并供后面重用。下面是persist方法或cache方法的函数定义：

【赵渝强老师】Spark RDD的缓存机制

由于Spark的计算是在内存中完成，因此任务执行的生命周期lineage（血统）越长，执行出错的概念就会越大。Spark通过检查点Checkpoint的方式，将RDD的状态写入磁盘进行持久化的保存从而支持容错。如果在检查点之后有节点出现了问题，Spark只需要从检查点的位置开始重新执行lineage就可以了，这样就减少了开销。设置checkpoint的目录，可以是本地的文件夹，也可以是HDFS。

【赵渝强老师】Spark的容错机制：检查点

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型：窄依赖和宽依赖。

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区，就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候，也会根据分区的条件扫描特定分区中的数据，从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录，分区中的数据则是该目录下的文件。在执行查询语句时，可以通过SQL的执行计划了解到是否在查询的时候扫描的特定的分区。视频讲解如下：

【赵渝强老师】Hive的分区表

Hive是基于HDFS之上的数据仓库，它把所有的数据存储在HDFS中，Hive并没有专门的数据存储格式。当在Hive中创建了表，可以使用load语句将本地或者HDFS上的数据加载到表中，从而使用SQL语句进行分析和处理。

【赵渝强老师】Hive的内部表与外部表

由于在HA架构中包含的节点比较多，在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA，它们分别是：bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn，因此在部署HDFS HA的时候，也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示：

【赵渝强老师】基于ZooKeeper实现Hadoop HA

大数据体系架构中的核心组件都是主从架构，即：存在一个主节点和多个从节点，从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。

​【赵渝强老师】大数据主从架构的单点故障

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据技术专栏，为你提供了大数据技术的相关文章，致力于帮助开发者快速成长与发展。

大数据技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐