如何将唯一的整数键分配给Apache Spark Java应用程序中的每个Apache Spark Executor？

、、

我需要为spark应用程序中的每个spark executor分配一个唯一的整数id。我需要从在executor上运行的任务中检索executor id。执行器id将与其它数据元素(时间戳、mac地址等)一起用于生成唯一的64位密钥。如何将唯一的整数

浏览 27提问于2018-01-18得票数 0

回答已采纳

1回答

ExecutorPlugin:捆绑在应用程序JAR中的插件类，在executor上找不到类

我在app JAR中实现了我的插件类，并将spark.executor.plugins设置为插件类的名称。我让它工作的唯一方法是将我的应用程序JAR作为spark.executor.extraClassPath额外传递。为什么会这样呢？我希望app JAR中的类对执行器是可见的。我更希望能够将插件捆绑到我的应用程序</e

浏览 0提问于2019-10-28得票数 0

1回答

为什么Spark作业失败，并显示“退出代码: 52”

、、

我曾经遇到过Spark作业失败，跟踪结果如下所示：.(Shell.java:456).(Thread.java:745) .

浏览 0提问于2016-02-17得票数 17

回答已采纳

1回答

使用SPARK从S3分区数据中删除基于分区列的重复项

、、

("master"); //这会导致重复，因为NUM_VALUE可能在每个S3分区中重复`NAME date NUM_VALUEname1 100000000000 1name3 111620202258 2NAME dateNUM_VALUE name1 10

浏览 0提问于2020-11-19得票数 0

2回答

星星之火- CSV -可空错误不抛出异常。

、、

有点困惑，为什么火花没有抛出异常，而架构是用可空的fase定义的。这是我的例子 val testSchema = StructType(知不知道我的火花版本2.2.2

浏览 9提问于2020-04-13得票数 3

回答已采纳

1回答

火花错误执行器:任务0.0中的异常(tid 0) java.lang.ArithmeticException

、、、、

当我运行一个应用程序Java时，我得到了一个错误信息，使用的是Cassandra 3.11.9和Spark3.0.1。我的问题是，为什么只有在部署应用程序之后才会发生这种情况？2021-03-24 08:50:41.150 INFO 19613最近的失败:在阶段0.0中丢失任务0.0 (TID 0) (GDBHML08执行器驱动程序)：java.lang.ArithmeticException: java.lang

浏览 3提问于2021-03-23得票数 3

回答已采纳

1回答

Spark程序大容量删除hbase行抛出AbstractMethodError

、、、

下面是火花应用程序中的代码块，用于从hbase表中删除行键集(rePartitionedRowKeys)， putRecord => new Delete(putRecord), batchSize) pom.xml中的相关依赖关系是<scope>prov

浏览 1提问于2017-11-13得票数 1

回答已采纳

1回答

火花联合观察单元对工作的测试

、、、

我想要编写火花作业的单元测试，在火花-j观察者中执行。to field org.apache.spark.executor.TaskMetrics.at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$reportHeartBeat$1$apac

浏览 5提问于2016-04-19得票数 0

回答已采纳

2回答

火花启动比指定更多的执行器

、、、、

我正在运行Spark1.5.1在独立(客户端)模式下使用Pyspark。我正在尝试启动一个内存似乎很重的作业(也就是说，在python中，这不应该是executor-memory设置的一部分)。--executor-cores 40 \<script> 当我用上面的设置启动我的应用程序时，我希望有一个执行器然而，两个执行程序被启动，<

浏览 1提问于2016-08-28得票数 2

1回答

在星火中使用mapPartitions或除法器按键进行有效分组

、、

使用(Hash)partitioner，请举例说明如何通过键之类的元素来控制分区。是否有一种方法可以根据键(即1,2，……)创建每个分区。上面)不需要洗牌。 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker:41) at org.apache</em

浏览 5提问于2016-01-26得票数 6

2回答

无法在56 local空闲的PySpark本地模式下加载25 to数据集

、、、、

我的机器上有比Parquet数据集大小更多的空闲内存和分配给pyspark的内存(更不用说数据集的两列)，但是加载DataFrame后，我无法在它上运行任何操作。这太让人困惑了，我不知道该怎么办。spark.driver.memory 50gspark.executor.cores 12我的环境是这样<e

浏览 0提问于2019-07-01得票数 3

1回答

阶段13.0 (TID 13)中的任务0.0中的异常java.lang.OutOfMemoryError: Java堆空间

、、、、

当我们使用"mahout火花-行相似“操作时，我们正在试验一些问题，我们有一个包含100 k行和100项的输入矩阵，进程抛出了一个关于”阶段13.0中的异常(TID 13) java.lang.OutOfMemoryError: Java堆空间“的异常，我们试图增加Java堆内存，消除堆内存和spark.driver.memory。at org.apache.spark.scheduler.Task.run

浏览 0提问于2016-01-27得票数 1

回答已采纳

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41) at org.apache.spark.executor<

浏览 0提问于2018-01-18得票数 1

6回答

程序执行过程中Apache中的超时值异常

、、、

我正在MAC中运行一个Bash脚本。此脚本多次调用用Scala语言编写的spark方法。目前，我正尝试使用for循环调用这个星火方法100,000次。) a

浏览 12提问于2016-11-22得票数 16

回答已采纳

1回答

如何在Spark* cosmosdb连接器中传递"WriteThroughputBudget“配置*

、

根据维基，WriteThroughputBudget是一个整数值，定义了某个Spark作业中的摄取操作不应超过的RU预算。at org.apache.spark.scheduler.Task.run(Task.scala:121) at org.apache.spark.executor.Executor$TaskRunner$$anonfun$11.apply(Execut

浏览 1提问于2020-12-03得票数 0

1回答

如何在Spark中通过jdbc连接到docker托管的postgresql数据库？

、、、、

我尝试使用JDBC和spark dataframe从docker中托管的postgres数据库中检索数据。postgres端口在我的Kubernetes集群中作为nodeport打开。但是，当我尝试访问实际数据时，在不同于所提供的端口的端口上出现连接被拒绝错误(错误提到的是31816而不是32020)。(Utils.scala:480) at org.apache.spark.<em

浏览 18提问于2019-05-07得票数 2

回答已采纳

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

、

当我为表同步运行spark应用程序时，错误消息如下所示： at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408) at o

浏览 3提问于2019-10-16得票数 0

回答已采纳

1回答

PySpark错误java.lang.OutOfMemoryError:超过GC开销限制

如何修复GC overhead limit exceeded版本2.2.1中发生的PySpark。安装在Ubuntu 16.04.4上。spark.conf.set("spark.executor.memory", "1g")spark.conf.set("spark.driver.memory", "1g") 如何通过使用Python脚本中的良好设置来

浏览 0提问于2018-03-14得票数 4

回答已采纳

1回答

即使日志有错误，也不能退出Dataproc Pyspark作业。

、、、、

在dataproc中，可以多次看到日志中的错误，但是作业不会退出并继续运行多个小时。作业运行的数据也非常小。 at java.lang.Thread.run(Thread.java:750)

浏览 7提问于2022-07-15得票数 2

1回答

火花作业中的Kryo序列化错误

、、

:找不到键类的序列化程序：‘com.test.erializeTest.Toto’。org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203) at java.util.concurrent.ThreadPoolExecutor.runWorker:617) at java.lang.Thread.run(Thread.java:745)

浏览 3提问于2015-09-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

ExecutorPlugin:捆绑在应用程序JAR中的插件类，在executor上找不到类

为什么Spark作业失败，并显示“退出代码: 52”

使用SPARK从S3分区数据中删除基于分区列的重复项

星星之火- CSV -可空错误不抛出异常。

火花错误执行器:任务0.0中的异常(tid 0) java.lang.ArithmeticException

Spark程序大容量删除hbase行抛出AbstractMethodError

火花联合观察单元对工作的测试

火花启动比指定更多的执行器

在星火中使用mapPartitions或除法器按键进行有效分组

无法在56 local空闲的PySpark本地模式下加载25 to数据集

阶段13.0 (TID 13)中的任务0.0中的异常java.lang.OutOfMemoryError: Java堆空间

带字典的PySpark约简键

程序执行过程中Apache中的超时值异常

如何在Spark* cosmosdb连接器中传递"WriteThroughputBudget“配置*

如何在Spark中通过jdbc连接到docker托管的postgresql数据库？

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

PySpark错误java.lang.OutOfMemoryError:超过GC开销限制

即使日志有错误，也不能退出Dataproc Pyspark作业。

火花作业中的Kryo序列化错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐