通过API访问spark程序

文章/答案/技术大牛

发布

1回答

、

我有一个火花mlib程序启动和运行，适用于自由文本的nlp。我需要通过rest apis访问这个程序。例如:我需要通过调用这些API在excel表格的每一行上应用ml (转换每一行并从上面的ml程序中返回结果)。我该怎么做呢？基本上是尝试在spark程序周围有一个API包装器，而不是转到jupyter notebook并手动完成。

浏览 5提问于2019-11-12得票数 0

1回答

我们真的很想在这里得到一个关于星火查询的结果将如何被web应用程序访问的输入。考虑到星火是一个很好的行业使用，我会认为这部分将有许多答案/教程，但我没有找到任何东西。以下是我想到的几个选择 Spark结果保存在另一个DB中(可能是传统的)，查询请求返回新的表名，以便通过分页查询进行访问。这似乎是可行的，虽然有点复杂，因为我们需要处理查询的完成。让我困惑的是，其他要触发的连接器，比如Tableau，使用JDBC之类的连接器应该拥有所有的数据(而不是我们通常可以通过Livy或其

浏览 1提问于2018-10-25得票数 1

5回答

如何从程序中获取spark作业状态？

、

我知道hadoop REST API通过程序提供对作业状态的访问。同样，有没有办法在程序中获得spark作业状态？

浏览 0提问于2014-11-27得票数 2

2回答

是否有一个rest调用来列出spark独立模式下所有正在运行的应用程序？

是否有任何rest调用来列出spark上以独立模式运行的所有正在运行的应用程序？我可以找到rest调用来提交应用程序，但不能获得所有正在运行的应用程序！更新-如果我们不知道正在运行的应用程序端口，并且历史服务器也没有启用，那么有没有办法获得所有运行中的应用程序，只有spark master和rest端口的详细信息？

浏览 12提问于2021-01-22得票数 0

1回答

在Databricks Jobs API中传递JVM参数

、、、

我想在Databricks中使用Jobs API将JVM参数传递给REST请求。有可能做到吗？任何提示都会有所帮助。将类似-Dconfig-file=app.conf的内容添加到spark作业。

浏览 7提问于2020-02-28得票数 1

1回答

Jupyter + EMR + Spark -从本地计算机上的Jupyter笔记本连接到EMR群集

、、、

我尝试通过Jupyter notebook访问在EMR集群上运行的Spark，但遇到错误。SingleWell parallelization on Spark")\尝试跟随访问远程群集，但出现错误： .getOrCreate()Py4JJavaError: An error occurred while call

浏览 4提问于2017-06-28得票数 2

1回答

Spark - MongoDb - java中的慢dataframe.limit(2)与pyspark版本相比

、、、

具有以下python脚本： .builder \ dataframe = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("database",最初通过对Mongodb结构进行采样来启动，因此load()调用需要一段时间。Dataframe.li

浏览 1提问于2018-06-21得票数 1

2回答

如何使用API从databricks环境外部访问DBFS数据

、

我想在python代码的帮助下，使用API从databricks外部访问DBFS数据。我如何才能做到这一点？

浏览 0提问于2020-07-02得票数 0

1回答

Spark/Yarn:在一段时间内缓慢增加执行者的数量

、、

我有一个Spark作业要在由Yarn管理的集群上运行(启用了动态分配)。我的工作需要通过访问一些公司内部的REST API来处理数据(这不是可选的)。API团队告诉我，他们可以自动扩展到大量并发请求，但他们需要一些时间来扩展。所以他们要求我限制我的Spark作业每秒产生的请求数增加的速度。有没有什么简单的方法可以告诉Spark在预定义的一段时间内均匀地“增加”执行程序的数量？

浏览 11提问于2016-09-27得票数 0

回答已采纳

1回答

API调用的Spark Streaming架构

、、

这更像是一篇关于在spark streaming中做一些事情的适当方式的调查文章。我有一个接受Kafka Stream的Spark流媒体应用程序。问题是，我们每天收到超过100万条消息，目前至少有200万次访问我们的API服务器。规模只会越来越大。我们还计划再增加2个调用，从而使服务器的调用量翻一番。我需要访问API服务器的原因是，随着时间的推移，我们应用于每个消息更改的规则。我唯一想到的就是让API调用背后的表放在流应用程序将调用的

浏览 0提问于2016-09-02得票数 1

2回答

通过thrift服务器从web浏览器访问Spark RDDs - java

、、

我们已经使用Spark 1.2.1和Java处理了我们的数据，并存储在Hive表中。我们希望通过web浏览器以RDDs的形式访问这些数据。在github中，我看到了使用导入org.apach

浏览 1提问于2015-04-24得票数 3

2回答

在MLflow项目中通过Spark访问数据库中的三角洲湖表

、、、、

我目前正在访问从数据库笔记本使用火花的deltalake表。但是，现在我需要从MLflow项目访问增量表。MLflow火花api只允许记录和加载SparkML模型。知道我怎么能做到这一点吗？目前，我正试图通过MLflow项目中的以下代码访问spark：if spark is None: # NB: If there is no existi

浏览 8提问于2022-02-05得票数 1

5回答

如何通过火花REST获取所有作业状态？

、

我正在使用spark 1.5.1，我希望通过REST检索所有作业状态。我正在使用/api/v1/applications/{appId}得到正确的结果。但是，在访问作业时，/api/v1/applications/{appId}/jobs But “没有这样的应用程序：{appID}”响应。我应该如何在这里传递应用程序ID，以便使用火花REST检索应用程序的作业

浏览 18提问于2015-11-03得票数 7

2回答

如何访问spark历史服务器

、、

我在小数据集上运行我的spark应用程序，只是为了进行功能测试。但我也想看看有多少executors正在创建，以及数据是如何分区的。为此，我尝试访问spark UI应用程序，但访问spark UI应用程序的问题是，一旦应用程序完成，连接就会丢失。如何访问spark历史服务器来监控过去的spark应用程序。我正在使用intellij IDE运行spark<

浏览 26提问于2020-08-05得票数 0

回答已采纳

3回答

为什么我们不能使用Spark* session创建RDD*

、

我们看到了，Spark session available as 'spark'.我读到spark会话包括spark context，streaming context，hive context ...如果是这样，那么为什么我们不能使用spark会话而不是spark上下文来创建rdd[String] = Sample.txt MapPartitionsRDD[1]

浏览 0提问于2017-02-17得票数 9

1回答

获取HTTP错误403 -尝试通过Azure数据库访问集群时无效的访问令牌

、、、、

我试图通过python脚本访问Azure databricks spark集群，该脚本将令牌作为通过databricks用户设置生成的输入，并调用Get方法来获取集群的详细信息和集群id。{"cluster_id":"0128-******","spark_context_id":3850138716505089853,"cluster_name":"abcdxyz","spark</em

浏览 0提问于2019-02-05得票数 2

3回答

运行星星之火-在Scala代码中提交

是否有可能在代码中执行下面的星火提交脚本，然后获得按纱线分配的应用程序ID？50 hdfs://name.node.server:8020/user/root/x-service-1.0.0-201512141101-assembly.jar 这是为了使用户能够通过我发现， public class MyLauncher {public static voi

浏览 4提问于2015-12-21得票数 3

1回答

如何在Hive 3.1到Spark2.3(火星雨)中创建拼花表

、、、、

从火花创建/加载拼花表时面临的问题Horotonworks HDP3.0蜂巢3.12#.成功地将数据插入到现有的拼花表中，并通过火花检索。df.write.format("parquet").mode("overwrite").insertInto("database_name.test2") spark.sql(&qu

浏览 0提问于2018-10-12得票数 1

回答已采纳

2回答

火花仓库与蜂巢仓库

、、、

Hortonworks数据平台HDP 3.0有spark 2.3和Hive 3.1，默认情况下spark 2.3应用程序(pyspark/ Spark sql等)使用spark数据仓库，而Spark 2.3| hdfs://<hostname>:8020/warehouse/tablespace/managed/hive | | default| hdfs://<hostname&

浏览 1提问于2018-10-29得票数 3

回答已采纳

1回答

如何重新启动已停止的Spark上下文？

、、、

我使用apache zeppelin和hadoop运行Spark。我的理解是，Zeppelin就像一个kube应用程序，它向运行Spark并使用Hadoop访问文件的远程机器发送命令。json notebook_response = requests.get('http://localhost:8890/api/interpreter/setting

浏览 1提问于2020-05-18得票数 1

点击加载更多