使用Yarn Rest API的Spark提交[Spark无法解析namenode HA名称]

文章/答案/技术大牛

发布

1回答

、

我正在通过yarn rest api调用提交spark作业，但是得到了这个异常，spark无法解析namenode HA名称，而从yarn launcher提交spark作业，并且在launcher本身上失败org.apache.hadoop.util.RunJar.main(RunJar.java:208) Caused by: java.ne

浏览 18提问于2019-08-05得票数 0

5回答

从spark作业访问HDFS HA (UnknownHostException错误)

、、、、

当我尝试spark-submit编译的HdfsTest.scala示例应用程序(来自Spark 1.5.1源代码)时，它失败了，在执行器日志中出现了java.lang.IllegalArgumentException/HdfsTest-0.0.1.jar hdfs://hdfs/testfilespark.master spark:

浏览 9提问于2015-10-16得票数 9

5回答

在外部hadoop集群中，如何通过由H/A namenodes组成的URI访问hdfs？

、、

现在，我有了一些存储输出到HDFS的Spark应用程序。由于我们的hadoop集群是由namenode H/A组成的，而spark集群位于hadoop集群之外(我知道这很糟糕)，所以我需要为应用程序指定HDFS URI，以便它能够访问HDFS。但是它不识别名称服务，所以我只能提供namenode的URI之一，如果它失败了，请修改配置文件，然后再试一次。你能提出其他选择吗？

浏览 3提问于2015-06-12得票数 10

回答已采纳

2回答

在具有HA功能的Hadoop Yarn集群上部署Apache Spark

、、

我是大数据环境的新手，刚开始使用Zookeeper安装具有HA功能的3节点Hadoop集群2.6。有人能指导我安装步骤吗？我只能找到如何将Spark设置为独立模式，并且我已经成功设置了它。现在我想在Yarn</em

浏览 1提问于2016-03-23得票数 0

2回答

“错误:在运行submit或org.apache.spark.deploy.yarn.ExecutorLauncher”时无法找到或加载主类PySpark

、、、

我试图在Hadoop集群上运行星火提交命令，这里是我的Hadoop集群的总结：我正在尝试使用以下spark-submit命令运行spark示例之一 spark-submit --class o

浏览 5提问于2022-07-25得票数 0

3回答

如何为启用HA的群集配置SparkContext

、、

当我试图使用HDFS文件系统在纱线模式下运行星火应用程序时，当我提供以下属性时，它工作得很好。sparkConf.set("spark.hadoop.yarn.resourcemanager.hostname",resourcemanagerHostname);sparkConf.set("

浏览 3提问于2017-05-09得票数 1

3回答

在Yarn客户端上运行Spark

、、

我最近设置了一个多节点Hadoop HA (Namenode & ResourceManager)集群(3个节点)，安装已经完成，所有守护进程都按预期运行2945 JournalNode我已经在我的NN1上安装了Scala和Spark，我可以通过发出以下命令来成功启动我的spark现在，我对SPARK一无所知，我想知道如何在Yarn上运行Spark

浏览 2提问于2016-04-04得票数 0

2回答

我已经设置了一个3节点集群(所有节点都是从ESX服务器创建的VM机器)。我已经通过使用动物园管理员机制为Namenode和ResourceManager设置了高可用性。我已经在NameNode 1中安装了Spark (与我安装的Hadoop2.7兼容的版本)，我能够在本地启动Spark，并执行基本的scala命令来创建RDD并在上面执行一些操作。假设我拥有与我的HA集群is.How相同的</

浏览 5提问于2016-05-12得票数 3

2回答

如何从web应用程序中利用spark集群？

很多人都问过这个问题，但除了链接和参考之外，没有明确的答案，而且大多数都不是最近的。问题是:我有一个web应用程序，需要利用spark集群来运行spark-sql查询。我的理解是，提交作业脚本是异步的，因此这在这里不起作用。我如何在这样的设置中利用spark？我是否可以像在自包含的spark应用程序中一样，在web应用程序中编写代码，即创建上下文，设置主URL，然后执行我需要做的事

浏览 3提问于2016-09-13得票数 2

1回答

即使在Spark主进程被终止后，spark作业仍在运行

、、、

我们正在spark集群上工作，即使在spark "Master“进程被杀死后，spark作业(S)也能成功提交。jps 19560 NameNode 18369 QuorumPeerMain 22414 Jps 20168 ResourceManager 22235主机spark</e

浏览 27提问于2017-01-30得票数 1

1回答

Spark over Yarn -不正确的应用程序主控选择

、、

我尝试使用下面的命令在Spark over Yarn上启动一些作业(这只是一个例子，实际上我使用了不同数量的内存和内核)： .作为应用程序主节点选择了一个不是Spark Master的节点。这是一个问题，因为实际的Spark Master节点强制参与分布式计算，导致不必要的数据网络传输(当然，因为Spark master一开始没有数据)。根据我在测试中看到的，Yarn</e

浏览 2提问于2015-02-04得票数 2

1回答

来自SSH的火花提交有不同的行为

、、、

当我从VM进行火花提交时，一切正常，但是当我从另一个VM启动同一个带有SSH的命令时，作业就不能工作了，因为它对资源管理器使用了一个糟糕的IP地址。我在纱线VM中使用的命令： /home/namenode/spark/bin/spark-submit --master yarn --class Main --deploy-mode cluster/home&

浏览 7提问于2022-10-26得票数 0

1回答

如何在oozie 4.2.0上运行星火动作(火种脚本)？

、、、、

当我以jar的形式提交python脚本以激发oozie中的操作时，我会看到以下错误： File "/home/hadoop/spark.py此外，我在我的工作流定义中将--conf spark.yarn.appMasterEnv.SPARK_HOME=/usr/lib/spark --conf

浏览 0提问于2017-05-26得票数 0

回答已采纳

2回答

跟踪和日志/调试纱线分配，这些纱线已从scala二进制文件中使用spark* submit启动*

、、、、

我将运行一些jars，这些jars是用Scala编写的，并使用spark-submit --master yarn命令运行火花进程。在运行这个jar时，我是否可以提交一些id或名称，以帮助我找到哪个纱线进程被哪个jar调用，从而使调试变得更容易？编辑:我不能在scala中编辑代码，我唯一能做的就是在我的环境中运行jars。

浏览 1提问于2018-10-15得票数 0

回答已采纳

1回答

Oozie SparkAction失败

、、

我编写的Spark (1.5.2)应用程序非常简单，只用于测试Oozie (4.2.0)：val count此应用程序在使用spark-submit时工作，既适用于纱线客户端模式，也适用于纱线集群模式.我的job.properties和workflow.xml文件如下：nameNode=hdfs://myhost.com:8

浏览 1提问于2016-01-19得票数 2

回答已采纳

2回答

ClassNotFound with Ozzie，Azure HDInsight & Spark2

、、、

经过一周的研究，不得不提出这样的要求： nameNode=wasb://mycontainer@something.blob.core.windows.net：

浏览 3提问于2019-02-13得票数 1

1回答

如何在集群模式下运行spark-submit命令时覆盖spark* jars？(okhttp3)*

、、、、

当我尝试在client模式下运行spark submit命令时，它会拾取我提供的显式jar，但是当我尝试在cluster模式下运行相同的jar时，这无法覆盖工作节点上的jar，并且执行器使用相同的Spark我的jar是一个很大的jar，但是spark jar在某种程度上比同样的jar更重要。如果我可以删除Spark提供的jars，它可能会工作，但

浏览 51提问于2020-04-11得票数 1

2回答

在spark* submit中将hdfs路径作为环境变量传递*

、、、

我正在尝试使用spark submit在yarn集群上运行我的spark程序，我正在读取一个放在hdfs中的外部配置文件，我正在运行作业- ./spark-submit --class com.sample.samplepack.AnalyticsBatch --master yarn-cluster --num-executors 3 --:8020/tmp/some.conf" PocSpark-1.0-SN

浏览 2提问于2015-04-15得票数 1

1回答

运行火花时异常-使用HighAvailability在Hadoop集群上提交

、

当使用HighAvailability在Hadoop集群上运行submit命令时，我将面临异常。同一命令在启用HA</

浏览 21提问于2016-07-08得票数 1

3回答

如何在不使用spark* -submit的情况下触发spark作业？实时代替批处理*

、、

我有一个spark作业，我通常使用spark-submit和输入文件名作为参数来运行它。现在我想让工作对团队可用，这样人们就可以提交一个输入文件(可能通过一些web-API)，然后spark作业将被触发，它将返回给用户结果文件(也可能是通过web-API)。(我使用的是Java/Scala) 在这种情况下，我需要构建什么才能触发spark作业？有什么教程吗？我应该在这种情况下使用s

浏览 0提问于2015-06-16得票数 0

点击加载更多