为什么我的UDF (在"cluster“模式下)是在本地(在驱动程序中)而不是在worker(s)上执行的？

在"cluster"模式下，UDF（用户定义函数）在本地（驱动程序）而不是在worker上执行的原因是因为UDF需要在驱动程序中进行序列化和反序列化操作。在"cluster"模式下，驱动程序负责将数据分发给各个worker节点进行处理，而UDF需要对数据进行处理，因此需要在驱动程序中执行。

UDF是用户自定义的函数，用于对数据进行特定的处理和计算。在"cluster"模式下，驱动程序负责将数据分发给worker节点，而worker节点则负责执行具体的计算任务。由于UDF是用户自定义的函数，其逻辑可能较为复杂，需要在驱动程序中进行序列化和反序列化操作，以确保在worker节点上能够正确执行。

此外，UDF在驱动程序中执行还可以减少网络传输的开销。如果将UDF直接在worker节点上执行，需要将UDF的代码传输到每个worker节点，增加了网络传输的负担。而在驱动程序中执行UDF，则只需要将计算结果传输回驱动程序，减少了网络传输的开销。

总结起来，UDF在"cluster"模式下在本地（驱动程序）而不是在worker上执行的原因是为了方便序列化和反序列化操作，并减少网络传输的开销。

为什么我的UDF (在"cluster“模式下)是在本地(在驱动程序中)而不是在worker(s)上执行的？

java、apache-spark、user-defined-functions

/myjar.jar") .setAppName("().register("myUdf", new Exception().p

浏览 20提问于2020-04-07得票数 1

回答已采纳

2回答

Spark不会在纱线集群模式下运行最终的“`saveAsNewAPIHadoopFile`”方法

hadoop、apache-spark、hdfs、rdd

我编写了一个Spark应用程序，它读取一些CSV文件(~5-10 GB)，转换数据并将数据转换为HFiles。数据从HDFS中读取并保存到HDFS中。当我在yarn-client模式下运行应用程序时，一切似乎都很好。但是，当我尝试将它作为yarn-cluster应用程序运行时，进程似乎没有在我的转换和准备保存的RDD上运行最终的saveAsNewAPIHadoop

浏览 9提问于2017-09-15得票数 1

回答已采纳

1回答

星星之交向驱动程序发送错误的java路径。

apache-spark、spark-submit

我正在向本地运行的容器式星火集群提交一个作业。火花版本3.2.1。我用的是比纳米的火花筒图像。这项工作是用scala编写的。我创造了一个“胖罐子”。现在，当我以客户端模式(--deploy-mode client)将jar提交到集群(从本地容器到容器外部)时，在本地文件系统中提供jar的路径。工作成功完成。但是，当我切换到集群

浏览 1提问于2022-09-08得票数 1

1回答

如何在集群模式下启动JavaSparkContext客户端？

apache-spark

我正在尝试使用集群模式连接到现有的Spark集群(Spark集群工作者不能通过网络访问我运行Java代码的机器)，配置如下： SparkConf conf = new SparkConf().setMastera Java version of the Spark Context JavaSparkContext sc = new JavaSparkContext(conf); 但客户端忽略该设置，在我的机器上启动驱动程序，而

浏览 28提问于2019-02-06得票数 0

1回答

纱线集群模式减少执行器实例数

apache-spark、hadoop-yarn、google-cloud-dataproc

我正在以以下方式提供Google集群：gcloud dataproc clusters create spark --async --image-version 1.2 \ --master-machine-type10 \ --num-worker-local-ssds 1 spark.driver.memory，而不是请求的4，

浏览 2提问于2017-12-28得票数 0

回答已采纳

1回答

Spark从本地读取文件并在hdfs中写入

apache-spark

我在本地系统中有一个文件。我想在本地使用Spark读取它，然后使用相同的spark程序在HDFS中写入它，这可能吗？

浏览 46提问于2020-04-29得票数 0

回答已采纳

2回答

什么时候和什么时候创建驱动程序？

apache-spark、pyspark

我正在尝试理解与在集群和客户端模式下创建星火提交驱动程序相关的事件序列。假设我在我的机器上，我使用Yarn资源管理器进行星星之交，部署模式是cluster。现在，当创建一个驱动程序的时候？是在主程序执行之前吗？或者是<

浏览 0提问于2021-08-01得票数 0

3回答

在包含其他文件的YARN集群上运行Spark作业

apache-spark、hdfs、hadoop-yarn

我正在编写一个简单的spark应用程序，它使用一些输入RDD，通过管道将其发送到外部脚本，并将该脚本的输出写入文件。驱动程序代码如下所示：val scriptPath = args(1)val sc = getSparkContext3)) sc.textFile(input).pipe(Seq("python2", SparkFiles.get(scriptPath))).saveAsTextFile(outp

浏览 0提问于2015-05-05得票数 11

回答已采纳

1回答

Apache :如何从hdfs文件中读取

apache-spark、pyspark、hdfs

我已经在本地安装了spark 2.3.0，并且使用了pyspark。我能够处理本地文件，没有任何问题。我对如何火花访问hadoop文件感到困惑。在安装火花时，我被要求复制winutil。我不明白winutil的作用是什么。我们是否应该首先启动hadoop服务，以便与spark一起工作？如果我使

浏览 0提问于2018-06-16得票数 0

1回答

为什么独立的主计划司机在工人身上？

apache-spark、apache-spark-standalone

schedule() in Master.scala显示第一个调度任务是在Worker上调度驱动程序。由于主程序将只启动独立模式，驱动程序将在客户端上运行。 为什么主人需要安排一个工人来运行司机？

浏览 1提问于2017-05-21得票数 0

回答已采纳

1回答

在防火墙后面向Apache-Spark提交作业

python、apache-spark

正如火花所指出的，工人必须能够到达驱动程序：因为驱动程序计划集群上的任务，所以应该在工作节点附近运行，最好是在同一局域网上运行。如果希望远程向集群发送请求，最好向驱动程序打开RPC并让它从附近提交操作，而不是在远离工作节点的地方运行驱动程序。建议的解决方案是让服务器进程在集群上运行，侦听R

浏览 4提问于2017-06-05得票数 1

2回答

必须在配置中设置主URL，这会造成许多混乱

apache-spark、amazon-emr、spark-submit

我在eclipse中编译了我的星火-scala代码。我试图在EMR中运行我的jar (5.9.0Spark2.2.0)，使用火花提交选项。must be set in your configuration 在阅读了大量的StackOverflow解决方案后，我感到困惑，没有找到一个正确的解释，如何和为什么设置应用程序主。

浏览 5提问于2018-01-15得票数 0

1回答

优化/调整设置以触发作业，其中作业使用groupbyKey和reduceGroups

scala、apache-spark

您好，我正在尝试查看是否有任何设置，如执行器内存、内核、混洗分区或任何我们能想到的可以加快包括union、GroupByKey和reduceGroups操作的作业的设置我理解这些高强度的操作，目前需要

浏览 0提问于2018-01-23得票数 1

2回答

在集群模式下与spark-submit共享配置文件

apache-spark、spark-streaming、hadoop-yarn

在开发期间，我一直在“客户端”模式下运行spark作业。我使用"--file“与执行器共享配置文件。驱动程序正在本地读取配置文件。现在我想在“集群”模式下部署作业。我现在很难与驱动程序共享配置文件。例如，我将配置文件名作为extraJavaOptions传递给驱动程序和执行器。")) 这在<

浏览 0提问于2016-10-21得票数 9

4回答

可以从代码中运行spark yarn集群吗？

java、apache-spark、hadoop-yarn

我有一个MapReduce任务，我想从我的java代码中在Spark YARN集群上运行它。我还想在java代码中检索reduce结果(字符串和数字对、元组)。类似于：// I want to ex

浏览 0提问于2016-02-20得票数 5

4回答

蓄能器线程安全吗？

java、multithreading、apache-spark、thread-safety、accumulator

我正在使用累加器，并想知道这些对象是否线程安全？ accum.add(valueToAdd);} 该行为表明它不是线程安全的我是不是遗漏了什么？

浏览 7提问于2014-12-12得票数 2

回答已采纳

2回答

带有--文件参数错误的PySpark spark submit命令

apache-spark、pyspark、apache-spark-sql、spark-submit

我使用以下命令在Spark2.3集群中运行一个PySpark作业。spark-submit --master yarn PySpark_ETL_Job_v0.2.pyconfigFilePath = os.path.join(Spa

浏览 0提问于2018-09-16得票数 2

回答已采纳

1回答

Hadoop FileUtils无法从Scala在本地(Unix)文件系统上写入文件

scala、apache-spark、hadoop

我试图使用FileSystem的FileSystem库将文件写入本地org.apache.hadoop.fs。下面是我应该这样做的大scala代码中的一行代码，但它不是。= new File(s"${localPath}/fileName.dat") localPath只是一个包含本地磁盘上完整路径的变量。hdfsSourcePath是</em

浏览 0提问于2019-05-31得票数 2

回答已采纳

1回答

在amazon emr上运行时，应指定哪些内容作为spark master

apache-spark、amazon-emr

斯帕克有在使用EMR web界面创建新集群时，可以添加一个自定义步骤，在集群启动时执行Spark应用程序，基本上是在集群启动后自动执行spark-submit。我一直在想，在启动EMR集群并通过指定的EMR步骤提交jar文件时，如何在应用程序中指定SparkConf的主节点？事先不可能知道集群主机的IP，如果我手动启动集群，然后在调用spark-

浏览 1提问于2016-12-09得票数 4

3回答

Spark不会在map函数内的控制台上打印输出

scala、apache-spark、spark-streaming

我有一个简单的Spark应用程序在集群模式下运行。 println(!ggsnFileLines出于调试目的，我需

浏览 0提问于2016-09-05得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我的UDF (在"cluster“模式下)是在本地(在驱动程序中)而不是在worker(s)上执行的？

相关·内容

为什么我的UDF (在"cluster“模式下)是在本地(在驱动程序中)而不是在worker(s)上执行的？

Spark不会在纱线集群模式下运行最终的“`saveAsNewAPIHadoopFile`”方法

星星之交向驱动程序发送错误的java路径。

如何在集群模式下启动JavaSparkContext客户端？

纱线集群模式减少执行器实例数

Spark从本地读取文件并在hdfs中写入

什么时候和什么时候创建驱动程序？

在包含其他文件的YARN集群上运行Spark作业

Apache :如何从hdfs文件中读取

为什么独立的主计划司机在工人身上？

在防火墙后面向Apache-Spark提交作业

必须在配置中设置主URL，这会造成许多混乱

优化/调整设置以触发作业，其中作业使用groupbyKey和reduceGroups

在集群模式下与spark-submit共享配置文件

可以从代码中运行spark yarn集群吗？

蓄能器线程安全吗？

带有--文件参数错误的PySpark spark submit命令

Hadoop FileUtils无法从Scala在本地(Unix)文件系统上写入文件

在amazon emr上运行时，应指定哪些内容作为spark master

Spark不会在map函数内的控制台上打印输出

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐