spark作业 - 腾讯云开发者社区

、、、

在我们的应用程序中，我们有一个内置的火花独立集群(Version2.4.3)，它通过submit主URL接收主数据引擎加载程序提交的作业。2020-04-28 11:31:15,466 INFO spark.SecurityManager: SecurityManager: authentication，

浏览 1提问于2020-04-28得票数 0

回答已采纳

1回答

为什么在dataproc中只有一个作业id，而在pyspark脚本中有多个操作？

、、、

火花作业的定义是：sc.parallelize(range(1000),10).collect() sc.parallelize(range(1000),10).collect()

浏览 3提问于2022-01-21得票数 2

回答已采纳

1回答

星火集群环境下并行作业运行时星火数据集错误值

、、、

.set("spark.executor.instances","8") .set("spark.driver.memoryOverh

浏览 2提问于2018-06-14得票数 0

2回答

Spark2-提交不同于spark-submit

spark2-submit和spark submit有什么不同？我需要从spark 1.6 to spark 2.4迁移我的代码，我是否仍然可以使用spark-submit来启动我的应用程序，或者必须迁移到spark2-submit。

浏览 65提问于2019-01-17得票数 0

回答已采纳

1回答

我在yarn客户端模式下运行spark作业。我在unix脚本中使用spark-submit命令运行这些作业。我想有每个spark作业运行的日志。我尝试使用下面的命令来获取日志： spark-submit --master yarn --deploy-mode client --num-executors 10 --executor-memory2G --driver-memory 2G --jars $spark_jars --class $s

浏览 1提问于2019-07-05得票数 1

1回答

即使内部任务返回错误，气流仍将DAG标记为成功。

、

所以我有一个DAG，它使用BashOperator在我们的服务器上触发一个火花作业。spark作业从S3存储桶中读取数据，该桶被隔离到按天划分的分区中并执行操作，如果桶中没有数据，则返回一个'path不退出‘错误，即如果桶中没有数据。$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply($$anonfun$org$apache$spark$sql$e

浏览 4提问于2022-11-17得票数 0

2回答

Spark History服务器未列出已完成的jars

、、、

我在Windows中运行Spark独立作业。我想使用Spark历史服务器监控我的spark作业。我已经用下面的命令启动了spark历史服务器，历史服务器启动成功。C:\Users\Documents\Prev_D_Folder\Softwares\Softwares\spark-2.2.0-bin-hadoop2.7\spark-2.2.0-bin-hadoop2.7\spark-2.2.0-bin-hadoop2.7\bin>

浏览 2提问于2019-05-02得票数 1

0回答

在一个主spark作业中启动多个spark作业

、

是否可以在一个主spark作业中产生多个spark作业，我的主spark作业的驱动程序是在纱线集群上启动的，它将进行一些预处理，并基于它需要在纱线集群上启动多个spark作业。主spark作业将启动其他spark-job，类似于在Spark驱动程序中调用多个spark-submit。这些为新任务生成的线程将是完全不同的组件，因此不能使用spark

浏览 5提问于2016-12-21得票数 2

1回答

如何使用yarn rest api提交作业到spark？我想使用YARN REST API提交作业给spark

、

我正在构建一个用于触发spark- job和检查作业状态的接口。我不能使用像Livy，spark job server这样的第三方库。我想通过REST API创建启动和提交作业到spark集群的API。

浏览 19提问于2019-10-21得票数 0

回答已采纳

2回答

如何在GCP集群模式下运行spark作业？

、、

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2xxx-xxxx-poc/cluster-compute/lib/xxxxxxxx-cluster-computation-jar-0.0.1-SNAPSHOT-allinone.jar --properties=

浏览 14提问于2020-03-16得票数 2

1回答

在Dataproc中将spark.master更改为纱线

、、、、

我将作业提交到Dataproc中的星火集群(使用Hadoop )。我看到，无论我为spark.master和部署模式设置了哪些属性，当我进入Spark时，作业的环境选项卡总是显示spark.master的本地属性，而且作业的不同阶段总是使用相同的executor id例如： gcloud dataproc jobs submit spark --cluster mycluster --regionmyregion --class MyApp --properties&#

浏览 1提问于2019-10-12得票数 2

1回答

Spark HBase到Google Dataproc和Bigtable的迁移

、、、

我在AWS EMR集群上运行了HBase Spark作业。最近我们搬到了GCP。我把所有的HBase数据都传输给了BigTable。现在，我在Dataproc中运行相同的Spark - Java/Scala作业。Spark作业失败，因为它正在查看spark.hbase.zookeeper.quorum设置。请让我知道，如何在不更改代码的情况下，让我的spark作业在BigTable上成功运行。你好，Neeraj Verma

浏览 2提问于2018-05-27得票数 0

1回答

如何按顺序运行spark作业？

、、

我正在提交多个Spark作业。一个作业使用一个工人。目前，我一次提交了30个作业，5个作业正在运行，25个作业正在等待。但是，此操作会给服务器带来沉重的负载。(有时无法分配作业端口并发生错误。)当前我的运行代码：： ~/spark-submit ~test1.py & ~/spark-submit ~test2.py & ~/spark-submit ~testN.py

浏览 28提问于2020-11-30得票数 0

回答已采纳

2回答

有没有办法用jobtracker或spark* application master确认我提交的spark作业是yarn-client还是yarn-cluster？*

、

我正在尝试验证一个带有spark-submit选项的spark job命令实际上是在yarn-client模式还是yarn-cluster模式下运行。我在命令本身中指定了master-delopy模式，但希望在之后验证作业状态。这更多地是从QA的角度来看的。我想知道是否可以从jobtracker或spark应用程序主程序中看到特定作业的部署模式。

浏览 12提问于2018-08-27得票数 1

1回答

如何实时调优spark作业？

、、

如何在pyspark中调整spark结构化流式作业期间的内存核心消耗？

浏览 18提问于2020-08-06得票数 0

1回答

如何在Spark中并行读写多个表？

、、、

在我的Spark应用程序中，我尝试从RDBMS读取多个表，执行一些数据处理，然后将多个表写入另一个RDBMS，如下所示(在Scala中)： val reading1 = sqlContext.load(

浏览 0提问于2015-08-25得票数 8

3回答

如何在不使用spark* -submit的情况下触发spark作业？实时代替批处理*

、、

我有一个spark作业，我通常使用spark-submit和输入文件名作为参数来运行它。现在我想让工作对团队可用，这样人们就可以提交一个输入文件(可能通过一些web-API)，然后spark作业将被触发，它将返回给用户结果文件(也可能是通过web-API)。(我使用的是Java/Scala) 在这种情况下，我需要构建什么才能触发spark作业？有什么教程吗？我应该在这种情况下使用spark-streaming吗？谢谢!

浏览 0提问于2015-06-16得票数 0

1回答

如何在启动新作业之前了解spark作业是否已完成

我想通过yarn并行运行一组spark作业，然后等待它们全部完成，然后再启动另一组作业。我如何才能知道我的第一组作业何时完成？谢谢。

浏览 10提问于2018-08-21得票数 1

回答已采纳

2回答

如何使用python多处理在Spark中运行多个并发作业

、、、

我已经在我的笔记本电脑上的纱线集群上设置了一个Spark，并且使用python多处理在Spark中运行多个并发作业时遇到了问题。我运行的模式是纱-客户模式。对于每个进程，设置一个SparkContext并提交作业。在这种情况下，作业成功地提交给纱线，但作业是串行运行的，每次只运行一个作业，而其他作业处于队列中。是否可以同时启动多个作业？更新设置调度

浏览 2提问于2015-11-09得票数 2

1回答

在Spark程序中访问Oozie配置

、、

我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。workflow.xml： <action name='s

浏览 1提问于2020-01-14得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Submitted在提交员工节点/作业IOException后无休止地重新提交

为什么在dataproc中只有一个作业id，而在pyspark脚本中有多个操作？

星火集群环境下并行作业运行时星火数据集错误值

Spark2-提交不同于spark-submit

为在纱线模式下运行的每个spark作业配置log4j

即使内部任务返回错误，气流仍将DAG标记为成功。

Spark History服务器未列出已完成的jars

在一个主spark作业中启动多个spark作业

如何使用yarn rest api提交作业到spark？我想使用YARN REST API提交作业给spark

如何在GCP集群模式下运行spark作业？

在Dataproc中将spark.master更改为纱线

Spark HBase到Google Dataproc和Bigtable的迁移

如何按顺序运行spark作业？

有没有办法用jobtracker或spark* application master确认我提交的spark作业是yarn-client还是yarn-cluster？*

如何实时调优spark作业？

如何在Spark中并行读写多个表？

如何在不使用spark* -submit的情况下触发spark作业？实时代替批处理*

如何在启动新作业之前了解spark作业是否已完成

如何使用python多处理在Spark中运行多个并发作业

在Spark程序中访问Oozie配置

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐