linux 提交spark任务_linux提交任务_提交spark任务到腾讯云套件 - 腾讯云开发者社区

、、、、

我可以使用控制台在linux服务器上提交spark作业。但是在linux服务器上有没有什么API或者框架可以用来提交spark作业呢？

浏览 0提问于2017-01-04得票数 0

1回答

如何从IntelliJ IDEA向远程星火库集群提交代码

、

我有两个集群，一个在本地虚拟机中，另一个在远程云中。这两个集群都处于独立模式。我的环境： Scala: 2.10.4 Spark: 1.5.1 JDK: 1.8.40 OS: CentOS Linux release 7.1.1503 (Core) 地方专题组：火花主:火花://现场1:7077 远程集群：火花主:火花://远程1:7077 我想结束这一切：在本地(我的笔记本上)在IntelliJ IDEA中编写代码(只是简单的字数)，并将Spark设置为spark://local1:7077和spark://remote1:7077，然后在IntelliJ

浏览 2提问于2015-11-09得票数 7

1回答

无重复的应用程序作业提交

、

我们使用的是DataStax Spark6.0。我们使用crontab提交作业，每5分钟运行一次。我们编写了脚本来检查它是否正在运行，以避免重复提交相同的应用程序。有没有办法在Spark级别停止作业提交或将作业保留在队列中，以避免相同应用程序的重复作业。谢谢Rakesh 我尝试只使用Crontab

浏览 13提问于2019-06-26得票数 0

1回答

带火花连接器的MongoDB

、、、

如果我有一个mongodb的副本集，那么主服务器正在接收所有的写/读操作，并将它们写入服务器。辅助服务器正在从操作日志中读取操作并复制它们。现在我想用spark- mongodb -connector来分析mongodb副本集中的数据。我可以在所有三个节点上安装spark集群，并在内存中对其运行分析。我知道spark集群有一个主节点，在那里我必须提交spark作业以进行分析，或spark streaming。两者都安装在tomcat中的应用程序服务器上。现在我需要选择一个主节点，将作业从我的tomcat应用服务器提交到spark集群。主服务器应该是Spark Master节点吗？然后应用程序

浏览 15提问于2017-01-25得票数 1

1回答

在spark-shell中可访问正确的配置单元转移存储，但不能在spark- file.jar中访问

、、、

当我跑的时候 spark-shell 在linux shell中，然后尝试： spark.sql("show databases").show() 我得到了正确的数据库列表(因为我连接到了正确的metastore)。现在，当我使用以下代码提交我的jar时：通过以下方式提交： spark-submit file.jar Jar代码- SparkConf conf = new SparkConf().setAppName("test"); SparkSession spark = SparkSession .builder()

浏览 1提问于2019-04-02得票数 0

3回答

如何使用Spark-submit命令获取提交给Spark集群的作业的应用Id/Job Id？

我正在使用spark-submit命令提交Apache Spark作业。我想检索使用spark-submit命令提交的作业的应用程序Id或Job Id。推荐的方式是什么？

浏览 0提问于2018-09-08得票数 4

1回答

从ShuffleMapStage提交50个缺少的任务- spark日志解释

、

当我提交spark streaming作业时，它会创建一个包含70个任务的作业，并在2秒内完成。然后，它启动相同的作业，同时运行一个任务，这是所需的行为。该任务是通过自定义接收器接收mq数据。我提交的jar只包含一个MQ自定义接收器和kafka接收器。没有处理器。它只是将已接收到mq的内容发送到kafka。我可以在spark日志中找到以下内容。但除此之外，我不知道为什么它会在印心时产生如此多的任务。信息are调度器:54-从ShuffleMapStage 0提交50个缺少的任务(在Streaming.java:59开始时的MapPartitionsRDD1)(前15个任务用于分区向量(0

浏览 0提问于2018-03-23得票数 0

1回答

纱线:火花中执行者的数量和执行者的核心有什么区别？

、、

我正在学习AWS EMR上的星火。在这个过程中，我试图理解执行者(-num- executor )和执行者核心(--executor-core)之间的区别。有谁能告诉我这里吗？此外，当我试图提交以下工作时，我会出错： spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5 --executor-memory 1g -–conf spark.yarn.submit.waitAppCompletion=false wordcount.py s3://test/spark-exa

浏览 4提问于2016-04-25得票数 10

2回答

将spark应用程序从Windows提交到Linux集群

、、

我在远程Ubuntu机器上运行着一个Spark和Worker。我正在尝试运行示例。但是当我从我的Windows机器提交到Linux集群时，我得到 C:/spark 1.6.0-bin-hadoop2.6/bin/spark提交-主火花://10.123.45.67:6066-部署模式集群-类com.company.spark.app.JavaDirectKafkaWordCount "C:/Dev/spark-app/target/spark-app-1.0-SNAPSHOT.jar“kafka-服务器:9092 topic1 使用REST应用程序提交协议运行Spark。使用spa

浏览 3提问于2016-02-11得票数 0

2回答

是否在Apache Spark中重新提交失败的任务？

在Apache Spark中失败的任务是否会自动重新提交给同一个或另一个执行者？

浏览 0提问于2014-10-08得票数 21

回答已采纳

2回答

指定spark提交的spark驱动程序

我正在提交一个shell脚本中的spark作业，该脚本有一堆环境变量和参数要传递给spark。奇怪的是，驱动程序主机不在这些参数中(但是有驱动程序内核和内存)。因此，如果我在集群中有3台机器，将随机选择一个驱动程序。我不想要这种行为，因为1)我提交的jar只在其中一台机器上，2)驱动机器通常应该比其他机器小，如果它是随机选择的话就不是这种情况。到目前为止，我还没有找到在命令行中为spark-submit指定此参数的方法。我已经尝试了--conf SPARK_DRIVER_HOST="172.30.1.123，--conf spark.driver.host="172.30.1

浏览 22提问于2017-03-03得票数 0

2回答

星火如何处理涉及JDBC数据源的故障场景？

、、、

我正在编写一个与Spark的JDBC数据源实现有相似之处的数据源，我想问一下Spark是如何处理某些故障场景的。据我所知，如果执行者在运行任务时死亡，火花将激活执行者并尝试重新运行该任务。但是，这在数据完整性和Spark的JDBC (例如df.write.format("jdbc").option(...).save())的上下文中是如何实现的呢？在savePartition函数的中，我们看到Spark调用了从用户提供的数据库url/凭据生成的Java对象的提交和回滚函数(见下文)。但是，如果一个执行器在commit()完成后或rollback()调用之前就死了，那么Spar

浏览 1提问于2019-01-09得票数 5

回答已采纳

1回答

Mobius SparkClr入门(在Linux上)

、

我希望在现有的(独立的) spark集群(在Ubuntu Linux上)上试用C#驱动程序，我可以通过python或scala与之进行愉快的交互。我不清楚如何运行一个简单的c#示例，因为我已经将最新的Mobius发行版下载到了linux box。我不清楚的是clr spark提交所需的两个额外参数(除了通常需要的参数之外)。当我尝试按照文档中的提交参数操作时，我遇到了各种各样的错误(或者我误解了说明) 首先，对于--exe，是简单地指向.exe文件还是需要传递它；--exe mono params其次，remote- spark -clr似乎坚持使用HDFS路径，但我运行的spark没有HD

浏览 4提问于2017-01-27得票数 1

2回答

如何在Airflow dag中途成功退出任务？

、

我有一个在FTP服务器上检查文件的dag (airflow在单独的服务器上运行)。如果文件存在，则将文件移动到S3 (我们在此存档)。从那里，文件名被传递给Spark提交作业。spark作业将通过S3 (不同服务器上的spark集群)处理文件。我不确定是否需要多个dags，但流程如下。我要做的是，如果S3存储桶中存在文件，则只运行Spark作业。我尝试使用S3传感器，但在满足超时标准后出现故障/超时，因此整个dag设置为failed。 check_for_ftp_files -> move_files_to_s3 -> submit_job_to_spark -> arch

浏览 1提问于2017-06-24得票数 1

1回答

是否始终在EMR群集的主节点中运行火花应用程序主节点？

、

我有一个EMR集群(1个主节点，1个核心节点)，我提交了我的火花应用程序部署模式是cluster模式。从文档中，我知道在这种部署模式下driver在Spark Application Master中运行，但是Yarn将选择哪个节点(主节点或核心节点)来运行Spark Application Master？它总是master节点吗？谢谢。

浏览 1提问于2022-03-01得票数 0

回答已采纳

1回答

如何在气流中将参数传递给火花提交作业

、

我必须触发一个火花模块，从气流使用火花提交操作员。但是，pyspark模块需要将session变量作为参数。我已经使用application_args将参数传递给pyspark模块。但是，当我运行dag时，submit操作符失败了，我传入的参数被认为是None类型变量。需要知道如何将参数传递给通过spark_submit_operator触发的pyspark模块。 DAG代码如下： from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PRJT").enableHiveSupport

浏览 1提问于2021-11-24得票数 0

1回答

提交Azure数据工厂的spark应用程序(Spark )

、、、

我们已经在Azure Kubernetes服务(AKS)上部署了Apache Spark。能够通过CLI 提交星火申请。问题：可以从Azure数据工厂版本2提交spark作业/运行spark应用程序吗？这样，我们就可以从数据工厂组织火花应用程序。

浏览 4提问于2021-08-19得票数 1

1回答

AWS EMR星火-云表

、、、

我在AWS EMR上运行一个应用程序。这是火花提交工作；- Arguments : spark-submit --deploy-mode cluster --class com.amazon.JavaSparkPi s3://spark-config-test/SWALiveOrderModelSpark-1.0.assembly.jar s3://spark-config-test/2017-08-08 因此，AWS使用纱线进行资源管理。当我观察云表时，我对此有一些怀疑:- 1) 在这里，容器分配意味着什么？我使用的是一个主&3个从/执行器节点(所有4个都是8个核心CPU)。 2)

浏览 2提问于2017-11-13得票数 0

回答已采纳

2回答

如何在火花上一个接一个地运行多个火花作业？

、、

目前，我有几个火花提交*.sh文件。每个文件生成一个在下一个文件中使用的表。是否有一种方法可以依次运行这些文件？到目前为止，我尝试在一个文件中一个一个地添加所有的星火提交代码，然后尝试。 sh spark_submit_ordered_combined.sh 在终点站。但这会一次启动所有密码。任何帮助都会很好。

浏览 3提问于2020-03-06得票数 1

1回答

同时有多个星火应用程序，同一个Jarfile.工作处于等待状态

、、

火花/斯卡拉诺布在这里。我在集群环境中运行星星之火。我有两个非常相似的应用程序(每个都有独特的火花配置和上下文)。当我试图把它们都踢掉的时候，第一种似乎占据了所有的资源，而第二种则会等待获取资源。我正在设置提交的资源，但这似乎并不重要。每个节点都有24个核心和45 gb内存可供使用。下面是我要并行运行的用于提交的两个命令。 ./bin/spark-submit --master spark://MASTER:6066 --class MainAggregator --conf spark.driver.memory=10g --conf spark.executor.memory=10g -

浏览 1提问于2020-04-28得票数 2

回答已采纳

1回答

使用oozie工作流启动星火程序

、、、

我正在使用spark软件包来处理scala程序。目前，我使用网关上的bash命令运行该程序:/home/spark/bin/spark submit--主纱线-集群-class "com.xxx.yyy.zzz“--驱动程序-java-选项"-Dyyy.num=5”a.jar arg1 arg2。我想开始用oozie来管理这份工作。我遇到了一些挫折：我应该把火花-提交可执行文件放在哪里？在hfs上？如何定义火花动作？驱动程序-java选项应该出现在哪里？奥兹的行动应该是什么样子？它和出现在上的那个相似吗？

浏览 1提问于2015-03-24得票数 6

回答已采纳

2回答

使用临时目录启动事务写入操作

、、

根据databricks的博客，spark依赖于Hadoop的提交协议类，因此如果作业由于某些故障而没有完成，输出目录不会改变(不发生部分输出文件)。所以我的问题是；在发生故障时，火花是否阻止部分写入到不同的存储(HDFS、S3等)？在最后写操作之前，不同的火花作业是否可以使用相同的临时位置？是否有可能同一个火花作业，并多次提交使用相同的临时地点？

浏览 1提问于2018-06-12得票数 2

回答已采纳

1回答

为什么取消缓存表中的火花-sql不工作？

、

我正在学习Spark，当我使用spark对以前缓存过的表进行uncache时，但是在提交了uncache命令之后，我仍然可以查询缓存表。为什么会发生这种事？ SparkVersion3.2.0(为ApacheHadoop2.7预先构建) Hadoop版本2.7.7 细胞转移瘤2.3.9 Linux信息 Static hostname: master Icon name: computer-vm Chassis: vm Machine ID: 15c**********************10b2e19 Boot ID: 48b*********

浏览 3提问于2021-12-17得票数 0

回答已采纳

3回答

Apache Spark - spark中的内部作业调度程序如何定义什么是用户，什么是池

、、、、

我很抱歉在这里有点泛泛，但我对spark内部的作业调度是如何工作的感到有点困惑。从文档中，我了解到它是Hadoop公平调度器的某种实现。我无法理解这里的用户到底是谁(是linux用户、hadoop用户还是spark客户端？)。我也无法理解这里的池是如何定义的。例如，在我的hadoop集群中，我将资源分配给了两个不同的池(让我们称它们为team 1和team 2)。但是在spark集群中，不同的池和其中的用户不会实例化自己的spark上下文吗？这再次让我产生了疑问，当我将属性设置为spark.scheduler.pool时，我应该传递哪些参数。我对driver如何实例化spark上下文，然后

浏览 2提问于2015-04-24得票数 6

1回答

动态资源分配和排队应用程序

、、、、

根据这个启用星火动态资源分配时，所有资源都分配给第一个可用的提交作业，从而导致随后的应用程序排队。若要允许应用程序并行获取资源，请将资源分配到池中并运行这些池中的应用程序，并允许抢占在池中运行的应用程序。我自己也观察到了这种行为，但是我目前正在处理一个小集群，只有两个节点(m3.xlarge在EMR上)和一个主节点(r3.xlarge)。我看到的是，如果我提交多个星火应用程序(对spark-submit的不同调用)，当我在EMR上查找我的资源管理器时，所有的应用程序都会被接受，但一次只运行一个。现在，这可能是因为我阅读的文件大约是2GB，而且我的资源已经用完了。我还尝试使用Spa

浏览 10提问于2017-10-31得票数 0

1回答

火花:驱动内存参数的使用

、

当我提交这个命令时，我的作业失败了，错误是“容器正在超越物理内存限制运行”。 spark-submit --master yarn --deploy-mode cluster --executor-memory 5G --total-executor-cores 30 --num-executors 15 --conf spark.yarn.executor.memoryOverhead=1000 但是，如果将参数：--driver-memory添加到5GB (或更高)，则作业结束时不会出错。 spark-submit --master yarn --deploy-mode cluster -

浏览 0提问于2018-11-09得票数 2

回答已采纳

1回答

Spark执行中内核的使用

我刚开始使用Spark查询，并试图理解它在幕后的作用。我在星火词汇中遇到过“核心”这个词，但仍然很难抓住这个词。我知道- 1 core = 1 task. 我的问题- 能解释一下core到底是什么意思吗？是否显示了目前分配给我工作的cores的数量？如果是，那么我在哪里可以看到它呢？如果我在Spark中发现运行tasks的次数较少，是否有办法增加分配给我的工作的cores数量，这样火花可以提交更多的任务并使我的工作运行得更快? 请给我建议。

浏览 2提问于2021-03-18得票数 0

9回答

把CSV带到Spark dataframe

、

我在Spark上使用python，并希望将csv转换为dataframe。 Spark的奇怪地没有提供CSV作为源的解释。我已经找到了，但是我对文档的两个部分有问题： "This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"，我真的需要增加

浏览 6提问于2015-04-29得票数 20

回答已采纳

3回答

气流和火花/Hadoop-独特的集群或一个用于气流和其他用于火花/Hadoop

、、

我正在试图找出哪种方法是最好的方式，与气流和火花/哈多普。我已经有了一个Spark/Hadoop集群，我正在考虑为气流创建另一个集群，该集群将远程将作业提交给Spark/Hadoop集群。对此有什么建议吗？从另一个集群远程部署spark看起来有点复杂，这会造成一些文件配置复制。

浏览 0提问于2018-08-25得票数 2

回答已采纳

2回答

无法在星火应用程序中设置环境变量

、、、

我试图为我的spark应用程序设置环境变量，运行在本地模式下。这是火花提交工作：- spark-submit --conf spark.executorEnv.FOO=bar --class com.amazon.Main SWALiveOrderModelSpark-1.0-super.jar 然而，当我试图进入这个网站时： System.out.println("env variable:- " + System.getenv("FOO")); 产出如下： env variable:- null 有人知道我怎么解决这个问题吗？

浏览 3提问于2017-11-28得票数 4

回答已采纳

1回答

以指定的Linux用户身份运行Spark executors

、

我有一个包含5个节点的spark独立集群。所有节点都通过nfs挂载了相同的卷。这些挂载中的文件具有特定的linux文件权限。当我以用户x(在所有节点上都可用，并且在所有节点上具有相同的uid)的身份spark提交作业时，我希望spark executors也以用户x的身份运行，以便作业只能访问用户x有权访问的文件。我没有Kerberos，也没有HDFS。在这个设置中这是可能的吗？使用纱线会有帮助吗？

浏览 0提问于2020-02-22得票数 1

1回答

火花提交命令中的命令行参数中是否有字符的限制？

、、、

我也想知道是否有什么特殊的字符，我们不能用在参数的火花提交命令？我还想知道，我们能否将一个完整的嵌套Json字符串传递给submit命令中的参数？另一个问题是如何使用java代码(从另一个程序)运行spark程序？那么，我们是否必须在集群上运行我们的其他程序(安装了spark的linux机器)才能运行我的spark程序？我在这件事上太糊涂了，请提出建议。

浏览 2提问于2015-07-23得票数 1

1回答

Oozie:为什么错误日志显示在mapreduce作业中，而不是Spark作业中？

、、

我提交了一个oozie工作流，这是一个外壳操作，它调用spark-submit来运行一个jar文件的Spring boot应用程序。它在客户端模式下运行在纱线上。然而，我发现所有Spring日志都在yarn中的oozie mapreduce作业中，而不是Spark作业本身中。我不明白为什么？

浏览 41提问于2021-08-25得票数 0

回答已采纳

3回答

如何在提交后退出spark-submit

、

当使用spark -submit(纱线模式)提交spark流程序时，它会一直轮询状态，从不退出 spark-submit中有什么选项可以在提交后退出吗？ ===why this trouble me=== 流程序将永远运行，我不需要状态更新如果我手动启动它，我可以ctrl+c来停止它，但我有很多流上下文要启动，我需要使用脚本启动它们我可以将spark-submit程序放在后台，但在创建了大量后台java进程之后，对应的用户将无法运行任何其他java进程，因为JVM无法创建GC线程。

浏览 1提问于2016-05-13得票数 18

回答已采纳

2回答

火花调度模式和应用队列有什么区别？

、、、

在测试多个作业同时运行或稍后提交的较小作业时火花作业的行为时。我在spark中遇到了两个设置。一种是可用的调度模式，如下图所示：其中一个在调度程序中，如下所示我想了解两个设置和抢占之间的区别。我的要求是，在处理更大的工作时，在两者之间提交的小工作必须获得资源，而不需要等待更长时间。

浏览 2提问于2016-08-10得票数 1

回答已采纳

4回答

火花提交输出结果

、、、

我是火花和scala编程的初学者，我试着在本地模式下运行spark submit示例，它运行完整，没有任何错误或其他消息，但我看不到任何输出结果在领事或星火历史网络用户界面.Where，我如何才能看到我的程序的结果在火花-提交？这是我运行的命令 spark-submit --master local[*] --conf spark.history.fs.logDirectory=/tmp /spark-events --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=/tmp/spark-events --conf

浏览 0提问于2018-04-26得票数 1

回答已采纳

1回答

基于操作符类型的气流并行度

气流是否支持按操作员类型限制节流或并行度。我希望限制跨不同dags的spark提交数量，但不会最终限制跨

浏览 0提问于2020-12-20得票数 1

1回答

如何在集群模式下交互运行spark

、

我有一个spark集群运行在 spark://host1:7077 spark://host2:7077 spark://host3:7077 并在尝试使用以下命令读取文件时通过/bin/spark-shell --master spark://host1:7077连接： val textFile = sc.textFile("README.md") textFile.count() 提示符说 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to

浏览 0提问于2015-04-22得票数 7

2回答

在apache火花生产场景中处理倾斜数据

、

谁能解释在Apache的生产中如何处理倾斜的数据？场景：我们使用"spark-submit"提交了spark作业，并且在spark中观察到很少有任务花费很长的时间，这表明存在偏差。问题： (1)我们应采取哪些步骤(重新划分、合并等)？ (2)我们是否需要终止作业，然后在jar中包含倾斜的解决方案并重新提交作业？ (3)能否通过直接从shell运行(合并)之类的命令来解决这个问题，而不杀死作业？

浏览 0提问于2018-06-25得票数 3

3回答

Spark local vs hdfs permormance

、、

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3G字节的文本文件。我有一个简单的字数统计程序。如果我提交从本地文件系统读取文件的程序，它大约持续33秒。如果我提交从hdfs读取文件的程序，它大约持续46秒。为什么？我所期望的结果正好相反。在sgvd的请求后添加： 16个从站1个主站 Spark Standalone，无特殊设置(复制系数3) 版本1.5.2 import sys sys.path.insert(0, '/usr/local/spark/python/') sys.path.ins

浏览 0提问于2016-01-13得票数 5

2回答

纱线上的火花-取代Django的火种工作

、、

我正在开发一个包含以下组件的web应用程序： Apache运行在具有3个节点的集群上(spark 1.4.0、Hadoop2.4和Spark ) Django Web应用服务器 Django应用程序将创建“随需应变”的火花作业(它们可以是并发作业，这取决于有多少用户使用该应用程序) 我想知道是否有任何方法提交Django中python代码中的激发作业？我能在django中集成火种吗？或者我可以直接调用纱线API来提交作业？我知道我可以使用星火提交脚本向集群提交作业，但我试图避免使用它。(因为它必须是从代码中执行的shell命令，而且这样做并不安全) 任何帮助都将不胜感激。非

浏览 3提问于2015-07-07得票数 4

1回答

起泡水滴工程运行问题

、、、

我从'‘中克隆了闪闪发光的液滴项目。并分别使用./gradlew洁净、./gradlew构建清理和构建项目。之后，尝试使用命令运行项目。 build/libs/sparkling-water-droplet-app.jar -火花-提交-类water.droplets.SparklingWaterDroplet 然后得到以下错误消息： Exception in thread "main" java.lang.NoClassDefFoundError: water/fvec/Frame at water.droplets.SparklingWaterDroplet.mai

浏览 0提问于2016-03-13得票数 0

回答已采纳

1回答

将文件加载到独立集群中

、

我有一个四节点星系团。一个节点是主从节点，另外三个是从节点。我编写了一个示例应用程序，它加载文件，创建数据框架，并运行一些spark SQL。当我像下面这样从主节点提交应用程序时，它正在产生输出：- ./spark-submit /root/sample.py 但是当我像下面这样与主人一起提交时，它会说：“文件不存在错误。 ./spark-submit --master spark://<IP>:PORTNO /root/sample.py 我正在从样例文本文件创建一个RDD :- lines = sc.textFile("/root/testsql.txt")

浏览 0提问于2016-12-05得票数 1

回答已采纳

1回答

用Spark将数据写入MongoDB

、、

当我试图在mongodb中编写时，我发现它只创建了一个任务来完成它。这会导致糟糕的性能，因为即使在作业中分配了许多执行器，实际上也只有一个执行器在运行。我的部分电火花代码： df.write.format("com.mongodb.spark.sql.DefaultSource") \ .mode("append") \ .option("spark.mongodb.output.uri", connectionString) \ .save() 在这种情况下，会引发运行多个任务吗？谢谢星火提交： spark-subm

浏览 1提问于2017-11-10得票数 1

回答已采纳

2回答

java.lang.NoClassDefFoundError: org/apache/spark/flume/flume/FlumeUtils at SimpleApp.main(SimpleApp.java:61)

、、

对于一个项目需求，我试图用火花示例中的火花构建FlumUtils示例。我能够创建jar文件。但是，在尝试执行时，我得到了以下错误。有人能帮我解决这个问题吗？ Error: application failed with exception java.lang.NoClassDefFoundError: org/apache/spark/streaming/flume/FlumeUtils at SimpleApp.main(SimpleApp.java:61) at sun.reflect.NativeMethodAccessorImpl.invoke0(Nat

浏览 1提问于2015-07-31得票数 1

回答已采纳

2回答

限制apache spark作业运行持续时间

我想在集群环境中使用超时参数提交作业，有没有办法让spark在超过允许的持续时间后杀死正在运行的作业？

浏览 19提问于2017-02-06得票数 5

1回答

星星之火能保证数据的一致性吗？

、

当我使用yarn cluster向--num-executers=4提交spark作业时，我可以在spark UI中看到，在集群中的4个节点中分配了4个执行器。在我的火花应用程序中，我从不同的HDFS位置接受不同步骤的输入。但在执行过程中，分配的执行者保持不变。我怀疑spark是否为data-locality，做了什么，因为它从一开始就选择了节点，而不管输入数据位于哪里(至少在HDFS的情况下是这样)？我知道地图缩小在某种程度上是这样的。

浏览 1提问于2016-09-12得票数 2

1回答

卡夫卡偏移量超出范围

、、

我正在用scala编写一个与kafka进行火花流连接的程序，我得到了以下错误： 18/02/19 12:31:39 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 39) org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {prensa4-0=744} at org.apache.kafka.clients.

浏览 0提问于2018-02-19得票数 2

1回答

如何拖尾纱线原木？

、、、、

我正在使用下面的命令提交一个火花作业。我想使用类似于Linux机器中的tail命令操作的应用程序Id来跟踪纱线日志。 export SPARK_MAJOR_VERSION=2 nohup spark-submit --class "com.test.TestApplication" --name TestApp --queue queue1 --properties-file application.properties --files "hive-site.xml,tez-site.xml,hbase-site.xml,application.properties&

浏览 37提问于2019-01-23得票数 0

回答已采纳

1回答

spark.dynamicAllocation.enabled是如何影响工作顺序的？

需要了解何时使用spark.dynamicAllocation.enabled --使用它的优点和缺点是什么？我排队等待工作的提交。上午9:30 ->作业A在启用dynamicAllocation的情况下提交。上午10:30 ->作业B在启用dynamicAllocation的情况下提交。注意:我的数据是巨大的(对10 on的数据进行转换处理)。哪一份工作在分配执行者给工作A或工作B方面有优先权，以及火花如何协调b/w 2申请？

浏览 2提问于2017-05-27得票数 1

回答已采纳