Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CentOS7下Spark集群的安装

CentOS7下Spark集群的安装

作者头像
栗筝i
发布于 2022-12-01 12:58:21
发布于 2022-12-01 12:58:21
55200
代码可运行
举报
文章被收录于专栏:迁移内容迁移内容
运行总次数:0
代码可运行

从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。Worker节点负责具体的业务运行。

从Spark程序运行的层面来看,Spark主要分为驱动器节点和执行器节点。

1、机器准备

准备两台以上Linux服务器,安装好JDK1.8

我这里的是

ip地址

系统

Carlota1

CentOS7.3

Carlota2

CentOS7.3

Carlota3

CentOS7.3

2、下载Spark安装包

http://spark.apache.org/downloads.html

3、上传解压

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//上传
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota1:/usr/local/apps/
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota2:/usr/local/apps/
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota3:/usr/local/apps/
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//解压
tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//改个名
mv spark-3.0.1-bin-hadoop3.2 spark-3.0.1

4、配置环境变量

  • vi /etc/profile
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#Spark
export SPARK_HOME=/usr/local/apps/spark-3.0.1
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  • source /etc/profile

5、配置Spark【Standalone模式】

Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos,我们选择最具代表性的Standalone集群部署模式。

  • 进入到Spark安装目录cd /usr/local/apps/spark-3.0.1/conf
  • 将slaves.template复制为slavescp slaves.template slaves
  • 将spark-env.sh.template复制为spark-env.shcp spark-env.sh.template spark-env.sh
  • 修改slaves文件,将work的hostname输入vi slaves
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Carlota2
Carlota3
  • 修改spark-env.sh文件vi spark-env.sh,添加如下配置:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SPARK_MASTER_HOST=Cralota1
SPARK_MASTER_PORT=7077
  • 同步数据到Carlota2和Carlota3
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
scp -r conf root@Carlota2:/usr/local/apps/spark-3.0.1
scp -r conf root@Carlota3:/usr/local/apps/spark-3.0.1
  • 进入sbin目录
  • vi spark-config.sh在下方添加
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
JAVA_HOME=/usr/local/java/jdk1.8
  • 同步一下
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
scp -r spark-config.sh root@Carlota2:/usr/local/apps/spark-3.0.1/sbin
scp -r spark-config.sh root@Carlota3:/usr/local/apps/spark-3.0.1/sbin

Spark集群配置完毕,目前是1个Master,2个Wor

6、Spark启动集群

  • Carlota1上启动集群./sbin/start-all.sh
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@Carlota1 spark-3.0.1]# ./sbin/start-all.sh 

starting org.apache.spark.deploy.master.Master, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.master.Master-1-Carlota1.out

Carlota2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Carlota2.out

Carlota3: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Carlota3.out
  • 启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@Carlota1 spark-3.0.1]# jps
10551 Master
10603 Jps
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@Carlota3 spark-3.0.1]# jps
17085 Jps
16959 Worker
  • 登录Spark管理界面查看集群状态(主节点):http://Carlota1:8080/

到此为止,Spark集群安装完毕.

注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置: export JAVA_HOME=XXXX

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【智能大数据分析 | 实验二】Spark实验:部署Spark集群
能够理解 Spark 存在的原因,了解 Spark 的生态圈,理解 Spark 体系架构并理解 Spark 计算模型。学会部署 Spark 集群并启动 Spark 集群,能够配置 Spark 集群使用 HDFS。
Francek Chen
2025/01/22
1830
【智能大数据分析 | 实验二】Spark实验:部署Spark集群
spark 集群搭建
一. 集群规划 node01为master节点,node02,node03为worker节点
Freedom123
2024/03/29
1710
docker搭建spark集群
有个小技巧:先配置好一个,在(宿主机上)复制scp -r拷贝Spark到其他Slaves。
千羽
2023/08/28
6750
docker搭建spark集群
源码编译搭建Spark3.x环境
首先安装好JDK、Scala和Maven,由于安装都比较简单,本文就不演示了,我这里使用的JDK、Scala和Maven版本如下:
端碗吹水
2020/10/27
3.1K0
hadoop+spark分布式集群搭建
hadoop+spark分布式集群部署 1.环境准备 环境的准备基于我写的初始化脚本,自用7.x系列的CentOS,老版本的就支持CentOS/Redhat6,7,8但是有点不完善,需要可以邮箱或者博客留言。 os\ip hostname block centos7.9 192.168.222.226 master rsmanager,datanode,namenode.snamenode,nmanager centos7.9 192.168.222.227 node1 snamenode,nmnag
Tianlin_Zz
2022/11/01
3830
基于ZooKeeper搭建Spark高可用集群
这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master。
每天进步一点点
2022/07/27
4640
基于ZooKeeper搭建Spark高可用集群
Spark安装
我的安装版本是spark-1.6.1-bin-hadoop2.6.tgz   这个版本必须要求jdk1.7或者1.7以上 安装spark必须要scala-2.11  版本支撑    我安装的是scala-2.11.8.tgz  tg@master:/software$ tar -zxvf scala-2.11.8.tgz  tg@master:/software/scala-2.11.8$ ls bin  doc  lib  man 添加环境变量 tg@master:
汤高
2018/01/11
8780
Spark安装
Spark集群安装方式2 原
    环境: jdk1.8、hadoop-2.7、spark-1.6、三台centos7(如下List-1所示)
克虏伯
2019/05/06
3420
Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建
  Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。
不温卜火
2020/10/28
1K0
Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建
Spark集群安装-基于hadoop集群
文章目录 hadoop集群 下载 环境配置 集群配置 测试 hadoop集群 参考使用docker部署hadoop集群-手把手复现 下载 首先查看hadoop版本 hadoop version 下载spark http://spark.apache.org/downloads.html cd /usr/local #yum -y install wget wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.1.1/spark-3.1
唔仄lo咚锵
2021/12/31
1.4K0
Spark集群安装-基于hadoop集群
spark-2.4.0-hadoop2.7-高可用(HA)安装部署 5.1. Spark安装5.2. 环境变量修改5.3. 配置修改5.4. 分发到其他机器5.5.
借助zookeeper,并且启动至少两个Master节点来实现高可靠。
踏歌行
2020/10/15
4730
spark-2.4.0-hadoop2.7-高可用(HA)安装部署
    




        5.1. Spark安装5.2. 环境变量修改5.3. 配置修改5.4. 分发到其他机器5.5.
Hive on Spark实战:深入理解与配置Spark集群
Hive 默认使用 MapReduce 作为执行引擎,即 Hive on mr。实际上,Hive 还可以使用 Tez 和 Spark 作为其执行引擎,分别为 Hive on Tez 和 Hive on Spark。由于 MapReduce 中间计算均需要写入磁盘,而 Spark 是放在内存中,所以总体来讲 Spark 比 MapReduce 快很多。
TASKCTL 任务调度平台
2024/11/12
4920
Hive on Spark实战:深入理解与配置Spark集群
Spark Standalone模式 高可用部署
本文使用Spark的版本为:spark-2.4.0-bin-hadoop2.7.tgz。
用户1217611
2020/11/13
1.4K0
Spark Standalone模式 高可用部署
Spark集群从搭建到任务提交-第N次记录
作为一名合格的计算机人士,百折不挠的瞎折腾精神是必备的。今天本想使用一下尘封已久的VMware虚拟机搭的集群,结果发现 Spark 有各种问题,应该是之前潦草搭集群时挖下的坑(前几天也用过,但并不是cluster mode,我现在才知道..),面对这些坑,果断的选择重装啊,所以叒叒叒开始愉快的搭环境了,,
ZONGLYN
2019/08/08
2.2K0
Spark集群从搭建到任务提交-第N次记录
Spark集群安装
1,download :http://spark.incubator.apache.org/downloads.html选择prebuilt:中hadoop2的下载,hadoop安装就不介绍了,spark节点可以不是hadoop节点,可以是一个hadoop客户端。
星哥玩云
2022/06/29
2640
Spark+Zookeeper搭建高可用Spark集群
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,详情参考。
阿dai学长
2020/03/05
1.7K0
Spark+Zookeeper搭建高可用Spark集群
Spark伪分布式集群搭建
---- 软件准备 一台Linux虚拟机 我用的CentOS-6.6的一个虚拟机,主机名为repo 参考在Windows中安装一台Linux虚拟机 spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-hadoop2.7.tgz 要根据自己机器中的hadoop版本选择对应的spark版本 ---- (1) 把安装包上传到服务器并解压 [root@repo soft]# tar -zxvf spark-2
CoderJed
2018/09/13
1.6K0
Spark伪分布式集群搭建
【Spark】集群服务安装
Xiongan-桃子
2023/06/10
1880
【Spark】集群服务安装
spark-2.4.0-hadoop2.7-安装部署 4.1. Spark安装4.2. 环境变量修改4.3. 配置修改4.4. 分发到其他机器4.5. 启动spark
该Spark集群安装,但是有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个Master节点来实现高可靠。具体部署下节讲解。
踏歌行
2020/10/15
7660
spark-2.4.0-hadoop2.7-安装部署
    




        4.1. Spark安装4.2. 环境变量修改4.3. 配置修改4.4. 分发到其他机器4.5. 启动spark
spark集群环境搭建
安装环境:CentOS-7.0.1708 安装方式:源码安装 软件:jdk-6u45-linux-x64.bin 下载地址:http://www.Oracle.com/technetwork/Java/javase/downloads/java-archive-downloads-javase6-419409.html
星哥玩云
2022/08/08
4660
spark集群环境搭建
相关推荐
【智能大数据分析 | 实验二】Spark实验:部署Spark集群
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验