有没有办法在不使用spark-submit脚本的情况下,以yarn-cluster模式运行pyspark脚本?我需要以这种方式使用它,因为我将把这段代码集成到django web应用程序中。
当我尝试在yarn-cluster模式下运行任何脚本时,我得到以下错误:
org.apache.spark.SparkException: Detected yarn-cluster mode, but isn't running on a cluster. Deployment to YARN is not supported directly by SparkContext. Please u
我使用3个虚拟机作为主机,使用Ambari设置了一个集群(YARN)。
在哪里可以找到HADOOP_CONF_DIR的值?
# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \ # can also be `yarn-client` for client mode
--executor-memory 20G \
--num-executors 50 \
我有一个火花流程序运行在纱线集群的"yarn-cluster“模式。(-master丝-簇)。我希望使用json格式的REST来获取星火作业统计信息。我能够使用REST url调用:获取基本统计信息。但这提供了非常基本的统计数据。
但是,我希望获取每个执行器或基于RDD的统计数据。如何使用REST调用来实现这一点,以及在哪里可以找到确切的REST url来获取这些统计信息。虽然$SPARK_HOME/conf/metrics.properties文件提供了一些关于urls的信息,
5. MetricsServlet is added by default as a sink in ma
我是flink的新手,在我的macbook上安装了yarn和flink,配备了M1 pro芯片。
当我尝试使用bin/flink run -m yarn-cluster examples/streaming/SocketWindowWordCount.jar --port 8882提交作业时,它返回了一个错误Caused by: org.apache.flink.configuration.IllegalConfigurationException: The number of requested virtual cores for application master 1 exceeds t
我无法在yarn中提交作业。在yarn-client选项下,cluster.The作业运行正常。将其提交到yarn-cluster时,仅此日志会多次出现。
Application report for application_1421828570504_0002 (state: ACCEPTED)
并因以下异常而失败。
diagnostics: Application application_1421828570504_0002 failed 10 times due to AM Container for app
attempt_1421828570504_0002_000010 exit
我使用以下脚本提交了我在yarn上的应用程序。 MAIN_CLASS=org.example.app.HelloFlink
flink run -m yarn-cluster -yn 4 -ys 1 -ynm FlinkHiveIntegrationTest -c $MAIN_CLASS /learn.flink.ioc-1.0-SNAPSHOT.jar 它抱怨说Could not get job jar and dependencies from JAR file: JAR file does not exist: -yn。 当我删除脚本中的-yn 4时,它就可以工作了。我在之前的flin