【赵渝强老师】Spark生态圈组件原创

2024-08-082024-08-08 09:02:23播放363

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们来讨论一下大数据计算引擎Spark生态圈的组件。首先了解一下什么是Spark Spark官网的解释是Apache Spark是一个multi language engine及多语言引擎，这里的多语言是指在Spark中支持使用多种编程语言，例如scla Java SQL Python和R语言。Spark可以执行data engineering的数据工程、data science的数据科学和machine learning的机器学习。这里需要重点讨论一下机器学习。机器学习本质上研究的是算法，它是人工智能的基础，与大数据体系没有本质上的关系，因为大数据体系研究的是数据的存储和数据的计算，只是在大数据体系中支持机器学习的算法。那你知道Spark中支持哪些机器学习的算法吗？欢迎评论区留言讨论single node machines or clusters表示，可以把Spark部署到单节点环境上或者集群环境上。了解到了Spark的基本知。
01:00
这时候下面介绍一下Spark生态圈中的组件平台层，讨论的是式可以把Spark部署成哪些模式，一共有三种不同的模式。第一种是local模式，它是指可以在IDE的开发环境中直接运行Spark应用程序，因此这种模式多用于开发和测试环境中。第二种是cluster的集群模式，它又具体分为两种不同的集群，Stand alone独立运行集群和ern集群。在Stand alone集群下，Spark不需要依赖其他组件独立运行任务和管理集群资源，在yarn集群下，Spark依赖yarn来管理资源和调度任务。Yan是hi duop2.0版本后提供的一个资源和任务调度的平台。那你知道在实际的生产中哪种集群使用的更多吗？欢迎评论区留言讨论。第三种是云原生模式，在该模式下，可以把Spark部署运行在docker和K8S的容器中，但是这种模式不是主流的方式，那你知道具体的原因吗？有了平台的支持。
02:00
时就可以部署Spark了。在Spark生态圈中，最核心的是底层的执行引擎Spark core. 注意，Spark core是一个离线计算执行引擎，因此在Spark中的所有计算都是Spark code的离线计算。有了底层执行引擎的支持，Spark提供了数据分析引擎Spark SQL, 用于支持使用SQL语句处理数据，同时还提供流处理引擎Spark streaming, 用于处理流失数据。注意，Spark streaming不能用于实时性很高的场景中。Spark core Spark SQL Spark streaming都属于大数据的计算引擎。下面讨论每一部分的访问接口，Spark core的访问接口是Spark context Spark SQL的访问接口是SQL context Spark streaming的访问接口是streaming context. 为了统一各个模块的访问接口，从Spark2.0开始，提供了统一的访问接口Spark session. 了解到了各自的访问接口，再讨论一下他们。
03:00
的数据模型Spark code的数据模型式RDD，它叫弹性分布式数据集，由分区组成，每个分区被不同的Spark从节点处理，从而支持分布式计算。RDD是Spark的核心。Spark SQL的数据模型是data frame, 可以把它理解成是一张表。Spark streaming的数据模型是d stream, 它表示的是离散流。注意，Data frame和d streamam最终的表现形式都是一个r DD Spark生态圈除了提供各种计算引擎，还支持机器学习和图计算，但这两个拈本质上不属于大数据体系。现在你已经知道Spark生态圈中的组件，那你知道haddoop生态圈和flink生态圈都有哪些组件吗？欢迎评论区留言讨论好了，记得点加号关注赵宇强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（35/53）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4610

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3760

1分34秒

【赵渝强老师】Hive的内部表

3720

1分25秒

【赵渝强老师】Hive的外部表

3680

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3710

3分53秒

【赵渝强老师】数据仓库与大数据

9760

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3530

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3860

1分28秒

【赵渝强老师】Kafka的主题与分区

3500

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3650

2分14秒

【赵渝强老师】MapReduce计算模型

3550

2分33秒

【赵渝强老师】Hive的体系架构

3750

2分22秒

【赵渝强老师】HBase的表结构

3560

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3610

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3830

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3830

2分22秒

【赵渝强老师】数据湖的流批一体架构

3510

2分53秒

【赵渝强老师】HDFS数据上传的过程

3490

3分20秒

【赵渝强老师】Hadoop的本地模式

3800

2分43秒

【赵渝强老师】HDFS数据下载的过程

3650

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3420

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3580

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3720

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8370

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8110

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

2700

4分11秒

【赵渝强老师】大数据平台的Lambda架构

8600

3分41秒

【赵渝强老师】大数据平台的Kappa架构

1690

3分54秒

【赵渝强老师】Hadoop生态圈组件

830

【赵渝强老师】Spark生态圈组件原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐