社区首页 >专栏 >CentOS7下Spark集群的安装

CentOS7下Spark集群的安装

栗筝i

发布于 2022-12-01 12:58:21

55200

代码可运行

文章被收录于专栏：迁移内容迁移内容

运行总次数：0

代码可运行

从物理部署层面上来看，Spark主要分为两种类型的节点，Master节点和Worker节点，Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。Worker节点负责具体的业务运行。

从Spark程序运行的层面来看，Spark主要分为驱动器节点和执行器节点。

1、机器准备

准备两台以上Linux服务器，安装好JDK1.8

我这里的是

ip地址	系统
Carlota1	CentOS7.3
Carlota2	CentOS7.3
Carlota3	CentOS7.3

2、下载Spark安装包

http://spark.apache.org/downloads.html

3、上传解压

//上传
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota1:/usr/local/apps/
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota2:/usr/local/apps/
scp spark-3.0.1-bin-hadoop3.2.tgz root@Carlota3:/usr/local/apps/

//解压
tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz

//改个名
mv spark-3.0.1-bin-hadoop3.2 spark-3.0.1

4、配置环境变量

vi /etc/profile

#Spark
export SPARK_HOME=/usr/local/apps/spark-3.0.1
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

source /etc/profile

5、配置Spark【Standalone模式】

Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos，我们选择最具代表性的Standalone集群部署模式。

进入到Spark安装目录cd /usr/local/apps/spark-3.0.1/conf
将slaves.template复制为slavescp slaves.template slaves
将spark-env.sh.template复制为spark-env.shcp spark-env.sh.template spark-env.sh
修改slaves文件，将work的hostname输入vi slaves

Carlota2
Carlota3

修改spark-env.sh文件vi spark-env.sh，添加如下配置：

SPARK_MASTER_HOST=Cralota1
SPARK_MASTER_PORT=7077

同步数据到Carlota2和Carlota3

scp -r conf root@Carlota2:/usr/local/apps/spark-3.0.1
scp -r conf root@Carlota3:/usr/local/apps/spark-3.0.1

进入sbin目录
vi spark-config.sh在下方添加

JAVA_HOME=/usr/local/java/jdk1.8

同步一下

scp -r spark-config.sh root@Carlota2:/usr/local/apps/spark-3.0.1/sbin
scp -r spark-config.sh root@Carlota3:/usr/local/apps/spark-3.0.1/sbin

Spark集群配置完毕，目前是1个Master，2个Wor

6、Spark启动集群

Carlota1上启动集群./sbin/start-all.sh

[root@Carlota1 spark-3.0.1]# ./sbin/start-all.sh 

starting org.apache.spark.deploy.master.Master, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.master.Master-1-Carlota1.out

Carlota2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Carlota2.out

Carlota3: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-3.0.1/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Carlota3.out

启动后执行jps命令，主节点上有Master进程，其他子节点上有Work进行

[root@Carlota1 spark-3.0.1]# jps
10551 Master
10603 Jps

[root@Carlota3 spark-3.0.1]# jps
17085 Jps
16959 Worker

登录Spark管理界面查看集群状态（主节点）：http://Carlota1:8080/

到此为止，Spark集群安装完毕.

注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置： export JAVA_HOME=XXXX

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-09-17，如有侵权请联系 cloudcommunity@tencent.com 删除

spark

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

2592

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

1414

60页PPT全解：DeepSeek系列论文技术要点整理

2521

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

spark 数据分析部署集群配置

能够理解 Spark 存在的原因，了解 Spark 的生态圈，理解 Spark 体系架构并理解 Spark 计算模型。学会部署 Spark 集群并启动 Spark 集群，能够配置 Spark 集群使用 HDFS。

Francek Chen

2025/01/22

1830

spark 集群搭建

集群配置同步 spark sh

一. 集群规划 node01为master节点,node02,node03为worker节点

Freedom123

2024/03/29

1710

docker搭建spark集群

容器镜像服务 spark local 集群配置

有个小技巧：先配置好一个，在（宿主机上）复制scp -r拷贝Spark到其他Slaves。

千羽

2023/08/28

6750

源码编译搭建Spark3.x环境

打包 spark scala maven

首先安装好JDK、Scala和Maven，由于安装都比较简单，本文就不演示了，我这里使用的JDK、Scala和Maven版本如下：

端碗吹水

2020/10/27

3.1K0

hadoop+spark分布式集群搭建

spark hadoop 分布式 tcp/ip centos

hadoop+spark分布式集群部署 1.环境准备环境的准备基于我写的初始化脚本,自用7.x系列的CentOS,老版本的就支持CentOS/Redhat6,7,8但是有点不完善，需要可以邮箱或者博客留言。 os\ip hostname block centos7.9 192.168.222.226 master rsmanager,datanode,namenode.snamenode,nmanager centos7.9 192.168.222.227 node1 snamenode,nmnag

Tianlin_Zz

2022/11/01

3830

基于ZooKeeper搭建Spark高可用集群

hadoop spark zookeeper jdk bash

这里搭建一个 3 节点的 Spark 集群，其中三台主机上均部署 Worker 服务。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务，Master 服务由 Zookeeper 集群进行协调管理，如果主 Master 不可用，则备用 Master 会成为新的主 Master。

每天进步一点点

2022/07/27

4640

Spark安装

spark

我的安装版本是spark-1.6.1-bin-hadoop2.6.tgz 这个版本必须要求jdk1.7或者1.7以上安装spark必须要scala-2.11 版本支撑我安装的是scala-2.11.8.tgz tg@master:/software$ tar -zxvf scala-2.11.8.tgz tg@master:/software/scala-2.11.8$ ls bin doc lib man 添加环境变量 tg@master:

汤高

2018/01/11

8780

Spark集群安装方式2 原

spark hadoop bash bash 指令 php

环境: jdk1.8、hadoop-2.7、spark-1.6、三台centos7(如下List-1所示)

克虏伯

2019/05/06

3420

Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建

hadoop spark bash bash 指令

Spark是基于内存计算的大数据并行计算框架，实际中运行计算任务肯定是使用集群模式，那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。

不温卜火

2020/10/28

1K0

Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建

Spark集群安装-基于hadoop集群

hadoop spark 容器镜像服务容器腾讯云测试服务

文章目录 hadoop集群下载环境配置集群配置测试 hadoop集群参考使用docker部署hadoop集群-手把手复现下载首先查看hadoop版本 hadoop version 下载spark http://spark.apache.org/downloads.html cd /usr/local #yum -y install wget wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.1.1/spark-3.1

唔仄lo咚锵

2021/12/31

1.4K0

spark-2.4.0-hadoop2.7-高可用(HA)安装部署 5.1. Spark安装5.2. 环境变量修改5.3. 配置修改5.4. 分发到其他机器5.5.

zookeeper jdk hadoop hbase centos

借助zookeeper，并且启动至少两个Master节点来实现高可靠。

踏歌行

2020/10/15

4730

spark-2.4.0-hadoop2.7-高可用(HA)安装部署

5.1. Spark安装5.2. 环境变量修改5.3. 配置修改5.4. 分发到其他机器5.5.

Hive on Spark实战：深入理解与配置Spark集群

hadoop hive cloudera-cdh spark jdk

Hive 默认使用 MapReduce 作为执行引擎，即 Hive on mr。实际上，Hive 还可以使用 Tez 和 Spark 作为其执行引擎，分别为 Hive on Tez 和 Hive on Spark。由于 MapReduce 中间计算均需要写入磁盘，而 Spark 是放在内存中，所以总体来讲 Spark 比 MapReduce 快很多。

TASKCTL 任务调度平台

2024/11/12

4920

Spark Standalone模式高可用部署

bash bash 指令 spark hadoop

本文使用Spark的版本为：spark-2.4.0-bin-hadoop2.7.tgz。

用户1217611

2020/11/13

1.4K0

Spark集群从搭建到任务提交-第N次记录

spark bash bash 指令 ide 打包

作为一名合格的计算机人士，百折不挠的瞎折腾精神是必备的。今天本想使用一下尘封已久的VMware虚拟机搭的集群，结果发现 Spark 有各种问题，应该是之前潦草搭集群时挖下的坑（前几天也用过，但并不是cluster mode，我现在才知道..），面对这些坑，果断的选择重装啊，所以叒叒叒开始愉快的搭环境了，，

ZONGLYN

2019/08/08

2.2K0

Spark集群安装

spark hadoop scala 数据分析

1，download :http://spark.incubator.apache.org/downloads.html选择prebuilt:中hadoop2的下载，hadoop安装就不介绍了，spark节点可以不是hadoop节点，可以是一个hadoop客户端。

星哥玩云

2022/06/29

2640

Spark+Zookeeper搭建高可用Spark集群

bash bash 指令 spark scala zookeeper

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，详情参考。

阿dai学长

2020/03/05

1.7K0

Spark伪分布式集群搭建

spark 分布式 linux windows http

---- 软件准备一台Linux虚拟机我用的CentOS-6.6的一个虚拟机，主机名为repo 参考在Windows中安装一台Linux虚拟机 spark安装包下载地址：https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-hadoop2.7.tgz 要根据自己机器中的hadoop版本选择对应的spark版本 ---- (1) 把安装包上传到服务器并解压 [root@repo soft]# tar -zxvf spark-2

CoderJed

2018/09/13

1.6K0

【Spark】集群服务安装

spark hadoop local 服务集群

Xiongan-桃子

2023/06/10

1880

spark-2.4.0-hadoop2.7-安装部署 4.1. Spark安装4.2. 环境变量修改4.3. 配置修改4.4. 分发到其他机器4.5. 启动spark

jdk zookeeper centos hbase linux

该Spark集群安装，但是有一个很大的问题，那就是Master节点存在单点故障，要解决此问题，就要借助zookeeper，并且启动至少两个Master节点来实现高可靠。具体部署下节讲解。

踏歌行

2020/10/15

7660

spark-2.4.0-hadoop2.7-安装部署

4.1. Spark安装4.2. 环境变量修改4.3. 配置修改4.4. 分发到其他机器4.5. 启动spark

spark集群环境搭建

spark hadoop 面向对象编程 linux scala

安装环境：CentOS-7.0.1708 安装方式：源码安装软件：jdk-6u45-linux-x64.bin 下载地址：http://www.Oracle.com/technetwork/Java/javase/downloads/java-archive-downloads-javase6-419409.html

星哥玩云

2022/08/08

4660