找不到spark作业服务器api依赖项。我能做什么?

文章/答案/技术大牛

发布

0回答

maven、apache-spark、spark-jobserver

我将以下内容放入我的pom.xml文件中： <groupId>spark.jobserver</groupId> <version>0.8.0</version>我也尝试过使用其他版本，但maven似乎<

浏览 3提问于2017-12-01得票数 0

2回答

通过使用spark over hbase和使用Yarn的hadoop，在服务器端提供了汇编库和其他库。(类似spark-looongVersion haddop loongVersion.jar)它包含大量的库。当spark jar作为作业发送到服务器执行时，作业中包含的库和服务器库(组装jar和可能的其他库)之间可能会发生冲突。我需要将此程序集jar作为“提供的”maven依赖项包含在内，以避免客

浏览 0提问于2017-11-30得票数 0

1回答

"user.dir“纱上的火花

java、apache-spark、hadoop-yarn

我有一个外部API jar，它在环境路径下面寻找依赖项。，通过将依赖项放置在调用目录中，我们可以在spark本地模式下使用api。我的问题是，当我将作业提交到纱线集群时，我无法使用API，并且它无法解决它的运行时依赖关系，尽管我已经将HDFS中的依赖项放置在path中。/user/

浏览 0提问于2018-06-29得票数 0

回答已采纳

1回答

火花2.1.0错误- kafka.cluster.BrokerEndPoint不能转换为kafka.cluster.Broker

apache-spark、apache-kafka、spark-streaming

关于这一点，我看到了其他几个问题，这些问题表明这是一个依赖/版本问题，例如org.apache.spark.spark-streaming_2.11 作为作业jar中的依赖项，我试图通过spark-submit运行。我知道Kafka服务器的代理版本是0.8，这

浏览 5提问于2017-04-06得票数 0

3回答

如何找到Java依赖项？

java、maven、apache-spark、spark-streaming

我的代码是：import org.apache.spark.api.java.JavaSparkContextMaven依赖项是： <groupId>org.apache.spark</groupId> <artifactId>spark

浏览 5提问于2017-05-05得票数 2

回答已采纳

1回答

如何在Java中获得火花执行器的工作目录？

hadoop、apache-spark

我需要知道Spark的当前工作目录URI/URL，这样我就可以在作业执行之前复制一些依赖项。我如何进入Java？我应该调用什么api？

浏览 2提问于2017-10-02得票数 0

2回答

如何从IntelliJ中的Sparklog4j-defaults.properties文件中过滤日志

java、maven、apache-spark、intellij-idea、log4j

我使用Spark依赖项在IntelliJ中运行Maven作业。问题是控制台日志是由Spark的log4j-defaults.properties文件触发的，日志中充满了我真的不想要的信息日志。我想修改日志文件，以摆脱信息日志(或任何日志)。或者可能在不修改属性文件的情况下过滤信息日志。问题是，我无法从log4j-defaults.properties的Maven依赖项中修改IntelliJ文件，或者

浏览 0提问于2020-09-08得票数 0

回答已采纳

1回答

如何管理冲突的Guava、Protobuf和DataProc依赖关系

apache-spark、google-cloud-dataproc、google-hadoop、vitess

我正在做一个scala Spark工作，它需要使用java库(youtube/vitess)，它依赖于比目前DataProc 1.1镜像上提供的更新版本的GRPC (1.01)，Guava (19.0)在本地运行项目并使用maven构建时，会加载这些依赖项的正确版本，作业将不会出现问题。将作业提交到DataProc时，首选这些库的DataProc版本，并且作业将引用无法解析的类函数。在DataProc上提交Spark

浏览 5提问于2016-11-09得票数 5

1回答

如何导入spark.jobserver.SparkSessionJob

spark-jobserver

我已经通过添加以下命令在build.sbt中添加了作业服务器0.9.0依赖项 scalaVersion := "2.11.0"libraryDependencies ++= Seq( "spark

浏览 19提问于2019-06-18得票数 0

回答已采纳

1回答

在spark-submit之前安装pyspark作业要求

python、apache-spark、pyspark、virtualenv、dependency-management

我想在Spark集群上运行Python应用程序，通过spark-submit将其发送到那里。应用程序有几个依赖项，比如pandas、numpy、scikit-learn。确保在提交作业之前安装依赖项的干净方法是什么？因为我已经使用了virtualenv进行开发，所以可以很容易地生成requirements.txt。

浏览 1提问于2018-04-19得票数 2

4回答

Spark UI出现格式错误(损坏的CSS)

css、apache-spark、user-interface、localhost、google-cloud-dataproc

我是第一次使用Apache Spark。我运行我的应用程序，当我访问localhost:4040时，我会得到如图所示的内容。我发现也许设置了可以帮上忙，但我不知道该怎么做。提前谢谢。

浏览 0提问于2017-12-19得票数 5

2回答

火花作业的外部依赖性

pyspark、hadoop-yarn、emr

我是大数据技术的新手，我不得不在EMR上以集群模式运行一个火花作业。作业是用python编写的，它依赖于几个库和一些其他工具。我已经编写了脚本并在本地客户端mode.But中运行它当我试图使用yarn.How运行它时出现了一些依赖问题，我管理这些依赖项吗？$$anon$1.read(PythonRDD.scala:193) at org.apache.spark.api</e

浏览 6提问于2017-12-12得票数 0

回答已采纳

1回答

在AWS EMR从节点中找不到模块

python、amazon-web-services、apache-spark、pyspark、emr

我目前正在AWS EMR集群上运行spark-submit作业。我开始遇到python包问题，在导入过程中找不到模块。一个显而易见的解决方案是进入每个单独的节点并安装我的依赖项。如果可能的话，我想避免这种情况。我可以做的另一个解决方案是编写一个bootstrap脚本并创建一个新集群。最后一个可行的解决方案是，我还可以pip install我的依赖项</e

浏览 7提问于2018-01-25得票数 4

2回答

星火MLib统计:它在哪里？

scala、apache-spark

._我收到一个错误：我使用Spark1.1.0并提交工作如下： --class Data \ --master localorders-4

浏览 2提问于2015-01-22得票数 1

回答已采纳

1回答

spark-提交到cloudera集群找不到任何依赖的jars

apache-spark、cloudera

我可以向cloudera集群提交spark-submit。作业在几分钟后就会死亡，但会出现异常，抱怨它找不到各种类。这些是spark依赖路径中的类。我一直使用命令行args --jars一次添加一个jar，yarn日志一直在转储它找不到的下一个jar。什么设置允许spark/yarn作业找到所有相关的jars？我已经将"spark.home“

浏览 0提问于2014-08-26得票数 0

1回答

Apache GraphX分区策略生成错误

java、apache-spark、spark-graphx

我正在尝试使用SanFranciso的道路网络数据集，该数据集可在此链接中免费获得：我只使用Edge数据集，并且我想在一个由然而，当我尝试在graphRDD上应用'graph.PartitionBy(PartitonStrategy)‘函数时，我得到的错误是'Partition cannot is not be resolved有人能告诉我为什么会出现这个错误吗？<

浏览 4提问于2021-10-08得票数 0

1回答

火花-提交：--罐子不起作用

apache-spark、spark-streaming

我正在为火花流作业构建度量系统，在系统中，每个执行者收集度量，因此需要在每个执行器中初始化度量源(用于收集度量的类)。度量源打包在jar中，当提交作业时，jar将使用参数“- jar”从本地发送到每个执行器，然而，执行器在jar到达之前开始初始化度量源类，因此它抛出类没有发现异常。PS:我尝试使用HDFS (将jar复制到HDFS，然后提交作业并让executor从HDFS的路径加载类)，但失败了。我检查了源代码，似乎类加载器只能解析本地路径。信息2016-01-15 18:08:07

浏览 4提问于2016-01-15得票数 5

2回答

星火客户端和火花驱动程序有什么不同？

apache-spark

星火客户端和火花驱动程序有什么不同？我一直听说，Spark是一个进行星火提交的客户端，但我从来不需要这样做，我所做的就是安装火花库，并在public static void main(String[] args)下初始化Spark上下文，import java.util.ArrayList;import java.util.Collection;

浏览 2提问于2016-09-22得票数 3

回答已采纳

2回答

有没有使用API提交spark作业的方法

apache-spark、pyspark、spark-streaming、distributed-computing、spark-submit

我可以使用控制台在linux服务器上提交spark作业。但是在linux服务器上有没有什么API或者框架可以用来提交spark作业呢？

浏览 0提问于2017-01-04得票数 0

2回答

osgi NoClassDefFoundError - jars目录

java、osgi、classpath

我有一个目录，里面有大量的jar文件。更具体地说: Apache Spark。现在，我想使用Spark库编写一个Java/osgi程序。做到这一点的最好方法是什么？结果将是一个巨大的插件，具有与服务器上相同的jar文件，而且在最坏的情况下与服务器的Spark版本不兼容。另一种选择是将所有200MB的jar文件添加到项目的lib文件夹中，并将它们视为嵌入库。唯一的另一种选择是在运行时修改类加载器，将Spark的jar目录添加

浏览 30提问于2019-07-03得票数 0

点击加载更多