首页
学习
活动
专区
工具
TVP
发布

大数据技术

分享大数据技术相关知识
专栏成员
22
文章
2898
阅读量
14
订阅数
【赵渝强老师】Hive的分区表
Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区,就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候,也会根据分区的条件扫描特定分区中的数据,从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录,分区中的数据则是该目录下的文件。在执行查询语句时,可以通过SQL的执行计划了解到是否在查询的时候扫描的特定的分区。视频讲解如下:
赵渝强老师
2024-10-28
1060
【赵渝强老师】Hive的内部表与外部表
Hive是基于HDFS之上的数据仓库,它把所有的数据存储在HDFS中,Hive并没有专门的数据存储格式。当在Hive中创建了表,可以使用load语句将本地或者HDFS上的数据加载到表中,从而使用SQL语句进行分析和处理。
赵渝强老师
2024-10-25
760
【赵渝强老师】基于ZooKeeper实现Hadoop HA
由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn,因此在部署HDFS HA的时候,也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示:
赵渝强老师
2024-09-18
1290
​【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。
赵渝强老师
2024-09-05
890
【赵渝强老师】大数据生态圈中的组件
大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以及它们的作用又是什么。
赵渝强老师
2024-09-04
1310
【赵渝强老师】大数据技术的理论基础
大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来,这就是"Google的三驾马车",即:Google的文件系统、MapReduce分布式计算模型和BigTable大表。这三篇论文奠定了大数据生态圈体系中的技术核心,从而有了基于Java的实现框架------Hadoop生态圈体系。进一步发展起来了后续的Spark生态圈体系和Flink生态圈体系。
赵渝强老师
2024-09-03
1640
【赵渝强老师】Spark中的RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,它是Spark中最基本、也是最重要的的数据模型。它由分区组成,每个分区被一个Spark的Worker从节点处理,从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能,并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制,可以极大地提高数据处理的速度。
赵渝强老师
2024-08-21
1430
【赵渝强老师】基于RBF的HDFS联邦架构
在最新的Hadoop版本中又实现了基于Router的联盟架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router将挂载表从客户端中抽离了出来,解决了ViewFS存在的问题。
赵渝强老师
2024-08-18
1940
【赵渝强老师】Spark Streaming中的DStream
要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。
赵渝强老师
2024-08-17
1320
【赵渝强老师】Spark SQL的数据模型:DataFrame
通过SQL语句处理数据的前提是需要创建一张表,在Spark SQL中表被定义DataFrame,它由两部分组成:表结构的Schema和数据集合RDD,下图说明了DataFrame的组成。
赵渝强老师
2024-08-15
1190
【赵渝强老师】Kafka分区的副本机制
在Kafka中每个主题可以有多个分区,每个分区又可以有多个副本。在这多个副本中,只有一个副本的角色是Leader,而其他副本的角色都是Follower。仅有Leader副本所在的Kafka Broker可以对外提供服务。Follower副本通常不会存放在Leader副本所在的Kafka Broker上。通过这样的机制实现了高可用,当Leader副本所在的Kafka Broker宕机后,其他Follower副本所在的Kafka Broker就能够被选举成为新的Leader。
赵渝强老师
2024-08-13
820
【赵渝强老师】Kafka的主题与分区
Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题,而消费者负责订阅主题进行消费。主题可以分为多个分区,一个分区只属于某一个主题。下面为列举了主题和分区的关系:
赵渝强老师
2024-08-13
980
【赵渝强老师】Hive的体系架构
在Hadoop体系中提供数据分析引擎Hive。它允许使用SQL语句来分析处理数据,而不需要编程复杂的Java程序。同时Hive提供了丰富的数据模型来创建各种表结构,帮助数据分析人员建立数据模型。视频讲解如下:
赵渝强老师
2024-08-12
1400
【赵渝强老师】Kafka的体系架构
Kafka消息系统是一个典型的分布式系统,其组成部分包括:消息生产者(Producer)、消息消费者(Consumer)、消息服务器(Broker)以及分布式协调服务ZooKeeper。一个典型的Kafka消息系统的集群架构如下图所示。
赵渝强老师
2024-08-12
1230
【赵渝强老师】基于Flink的流批一体架构
由于Flink集成了批计算和流计算,因此可以使用Flink构建流批一体的系统架构,主要包含数据集成的流批一体架构、数仓架构的流批一体架构和数据湖的流批一体。
赵渝强老师
2024-08-12
1630
【赵渝强老师】HDFS数据上传和下载的过程
在Hadoop的HDFS中客户端的操作请求,无论是上传数据或者下载数据都是由NameNode负责接收和处理。最终将数据按照数据块的形式保存到数据节点DataNode上。下图说明了HDFS数据上传的过程。
赵渝强老师
2024-08-12
2030
【赵渝强老师】部署Hadoop本地模式
为了方便操作Hadoop,需要设置HADOOP_HOME的环境变量,并把bin和sbin目录加入系统的PATH路径中。下面列举了具体的步骤。
赵渝强老师
2024-08-12
1190
【赵渝强老师】Flink生态圈组件
Flink与Spark一样也是大数据计算引擎,可以完成离线的批处理计算和流处理计算。Flink的优势在它的流处理引擎DataStream。下图展示了Flink的生态圈体系架构。
赵渝强老师
2024-08-12
1330
【赵渝强老师】Spark生态圈组件
Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Spark的生态圈体系,以及访问每个模块的访问接口。
赵渝强老师
2024-08-12
1370
【赵渝强老师】Hadoop生态圈组件
它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。
赵渝强老师
2024-08-12
1200
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档