1.Spark基本组
说明:
工具层:
Sparksql用户查询;
SparkStreaming流式计算;
Machineleaning机器学习;
graphX图像处理。
计算层:
核心功能实现Sparkcore,eg:sparkContext的初始化。任务的提交、执行计算引擎,存储体系,以及其部署。
存储层:图中所示的,以及文件、序列文件、本地文件,以及hadoop的inputformat
管理层:可以在自带的standalone集群上独立运行、也可以部署在Apache Mesos上,以及hadoop yarn等集群管理器上运行。
2.Spark的架构组成
说明:
worker节点:从节点,负责控制计算节点,启动executor或者driver。
Executor:执行器, 是为了某个Application运行在worker node上的一个进程。executor是真正执行task的单元,一个worker node上可以有多个executor。
Driver Program:核心驱动组件
领取专属 10元无门槛券
私享最新 技术干货