如何让Python库在Spark YARN上工作

在Spark YARN上让Python库工作的方法是通过使用PySpark来实现。PySpark是Spark的Python API，它允许开发人员使用Python编写Spark应用程序。

以下是在Spark YARN上让Python库工作的步骤：

安装Spark：首先，需要在YARN集群上安装和配置Spark。可以从Spark官方网站下载并按照官方文档进行安装和配置。
编写PySpark应用程序：使用Python编写Spark应用程序，可以使用PySpark提供的API来操作Spark集群。在应用程序中，可以导入所需的Python库，并使用它们进行数据处理、分析等操作。
提交应用程序到Spark集群：使用spark-submit命令将编写的PySpark应用程序提交到Spark集群。在提交应用程序时，需要指定应用程序的主类、依赖的Python库等信息。
配置Python库依赖：在提交应用程序时，可以通过--py-files选项指定应用程序所依赖的Python库文件。Spark会将这些库文件分发到集群的每个节点上，以便应用程序可以使用它们。
运行应用程序：一旦应用程序被提交到Spark集群，Spark会根据YARN的资源管理器进行资源分配，并在集群上启动应用程序的任务。应用程序将使用指定的Python库进行数据处理等操作。

推荐的腾讯云相关产品：腾讯云EMR（Elastic MapReduce）是一项托管式大数据处理服务，可与Spark集成，提供了在云端快速构建和运行Spark应用程序的能力。您可以通过腾讯云EMR来部署和管理Spark集群，并在集群上运行PySpark应用程序。

腾讯云EMR产品介绍链接地址：https://cloud.tencent.com/product/emr

请注意，以上答案仅供参考，具体实施步骤可能因环境和需求而有所不同。建议在实际操作中参考相关文档和官方指南，以确保正确配置和运行PySpark应用程序。

火花纱-客户端模式Python版本

、、、

我正在尝试用PySpark在yarn客户端模式下运行python模块。我的集群上的默认python是2.6.6，我想使用Python3，它安装在我的集群上的$/apps/anaconda/4.3.1/3/bin/python3.6路径下。当我通过下面的spark2-submit运行Spark模块时，它失败了，说明使用的是错误的Python版

浏览 0提问于2017-11-12得票数 3

1回答

如何让Python库在Spark YARN上工作

、、

如果我想使用python库来完成特定的任务，比如NLTK或BeautifulSoup，我可以在本地机器上使用Spark来完成，但是同样的事情在Spark on YARN上就不起作用了。Spark上运行，并清除Html标记。然而，当我在Spark on YARN上运行它时，它不能工作，并显示以下内容： Fil

浏览 8提问于2017-02-22得票数 1

2回答

纱线集群模式和独立模式下的PySpark应用程序提交错误

、、、

(100))spark.stop()/allBigData/spark/bin/spark-submit \--conf sp

浏览 13提问于2020-06-25得票数 1

1回答

当使用火花提交时，哪里执行python脚本？

、、、、

Python : 3.7.3Spark: 2.2.0YARN : 2.6.0-cdh5.10.2 嗨，我试着用python执行python脚本，但是我不明白它是如何工作的我试图发送一个完整的conda环境下的，在执行spark-submit时，在客户端模式中使用参数--archives来实现纱线。--conf spark.yarn</em

浏览 5提问于2019-10-29得票数 0

回答已采纳

2回答

未在PySpark中加载的扩展程序:没有名为elephas.spark_model的模块

、、、、

我试图在集群上分发Keras培训，并为此使用Elephas。8)：org.apache.spark.api.python.PythonException: Traceback (最近调用的最后一次)：at org.apache.spark.api.python.PythonRunner$$anon$1.read(Pyt

浏览 0提问于2018-03-06得票数 1

回答已采纳

1回答

从笔记本电脑提交spark申请

我想在我的笔记本电脑上提交spark python应用程序。我有一个独立的spark集群，而且主服务器运行在某个可见的IP (MASTER_IP)上。在我的笔记本电脑上下载并解压缩Spark之后，我得到了这个功能据我所知，它默认是客户端

浏览 0提问于2015-10-23得票数 3

8回答

ImportError:火花工作者上没有名为numpy的模块

、、、

在客户端模式下启动火花放电。bin/pyspark --master yarn-client --num-executors 60，shell上的导入numpy很好，但是在kmeans中失败了。我在任何地方都找不到好的解决办法，让工人们知道“无生气”的事。我试着设置PYSPARK_PYTHON，但这也不起作用。$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.pytho

浏览 7提问于2016-02-05得票数 19

回答已采纳

3回答

aws EMR版本5.23.0是否支持python版本3.7.x？

、、、

我们希望将python版本升级到3.7，并想检查当前的EMR版本5.23.0是否支持python 3.7。AWS上没有关于版本兼容性的官方信息。有没有人能帮我找出这个信息

浏览 6提问于2020-05-13得票数 1

2回答

PySpark内核(JupyterHub)能否在纱线-客户端模式下运行？

、、、

我目前的设置： rdd = sc.parallelize([1, 2])在PySpark json文件中，按照预期的方式工作的内核在内核json文件中具有以下环境变量： "PYSPARK_SUBMIT_ARGS": "--masterspark://<spark_

浏览 0提问于2016-12-12得票数 0

回答已采纳

2回答

如何确保Spark主节点正在使用工作节点？(Google集群)

、、、、

我刚刚创建了一个Google Cloud集群(1个master和6个worker)，并且默认情况下配置了Spark。如何确保master正在使用worker，以减少执行时间？

浏览 3提问于2018-08-09得票数 0

1回答

AWS EMR纱线集群上的Jupyterhub pyspark3

、、、、

我在AWS EMR集群上运行带有pyspark3内核的Jupyterhub。正如我们可能知道的那样，EMR上的Jupyterhub pyspark3使用Livy session在AWS EMR YARN调度器上运行工作负载。我们可以使用sparkmagic覆盖此配置：{"conf":{"spark.pyspark.python": "python

浏览 24提问于2021-05-17得票数 1

1回答

为什么火花提交在纱线集群模式下不会在执行器上找到python包？

、、

我正在使用boo.py (Spark2.0)在AWS上运行一个spark-submit脚本。python boo.py登录yarn logs -applicationId ID_numbercall last): File "boo.py", line 17,

浏览 5提问于2016-09-14得票数 5

回答已采纳

1回答

在纱线集群上创建一个火花作业，其工人数量要比在火花上下文中指定的要小得多。

、、、

在纱线集群上创建一个火花作业，其工人数量比火花上下文(100)中指定的要小得多(只有4名工人)：下面是我如何创建火花上下文和会话的方法： ('spark.yarn.dist.archives','xxxxxxxxxxx'), ('spark.yarn.appMasterEnv.PYSPARK_PYTHON','xxxxxxxxx

浏览 0提问于2020-02-26得票数 2

回答已采纳

1回答

星星之交-群集模式失败，错误13，火花放电作业的权限被拒绝

、、、

我们在默认python2.7附带的RHEL 7机器上安装了ClouderaCDH6.2。在虚拟环境中使用python3.7来提交火花作业。客户端模式与-主本地模式和-部署模式客户端工作正常。但是，在主纱线和-部署模式集群方面有问题。此命令spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PY

浏览 22提问于2020-07-11得票数 0

1回答

如何发送和运行火花-提交与虚拟

、、

我试图在独立集群上提交spark作业，我将虚拟主机压缩为venv.zip，并将该作业作为shell脚本提交PYSPARK_PYTHON=./venv/bin/python \spark-submit \--master

浏览 3提问于2021-07-04得票数 3

回答已采纳

1回答

更新后，Yarn无法在某些节点上启动AM

、、

在将系统更新到HDP 2.6.5之后，我遇到了一个问题。:313) at org.apache.spark.deploy.yarn.Client.run)当应用程序在一个或

浏览 1提问于2018-05-31得票数 0

2回答

PYSPARK_PYTHON适用于部署模式的客户端，而不是部署模式的集群。

、、、、

spark-submit --master yarn \ --jars /usr/iop/4.2.0.03.2.10.jar,/usr/iop/4.2.0.0/hive/lib/datanucleus-rdbms-3.2.9.jar \ --files /usr/iop/current/spark<

浏览 11提问于2016-12-22得票数 3

1回答

如何使用虚拟环境(包括python3解释器)来打包吡火花代码？

、、、、

我正试图让我的火花放电应用程序在纱线集群上运行。应用程序使用某些需要python3的库。然而，纱线集群使用python2，没有安装python3。是否有一种方法可以用python3和所有核心python3库来打包我的pyspark应用程序。我一直遵循这些步骤来创建虚拟环境。KEY_TAB --principal $PRINCIPAL --driver-memory=4G --archives environmen

浏览 3提问于2020-02-12得票数 5

1回答

如何在纱线上运行一个卡夫卡连接工人？

、、

我在和玩。我让HDFS connector同时在和上工作。如何让YARN执行工作人员？如果没有特定的方法，是否有关于如何在YARN中运行应用程序的通用方法？我使用了YARN和SPARK一起使用了spark-submit，但是，我

浏览 1提问于2016-01-18得票数 26

回答已采纳

1回答

Spark提交一个包含JAR依赖项的pyspark文件

、

我在一个文件中有一个pyspark代码，让我们称它为somePythonSQL.py我正在尝试使用ojdbc.jar依赖关系将其提交给Spark，因为pyspark实际上连接到一个oracle数据库。spark-submit --master yarn somePythonSQL.py --jars "/home/ojdbc7-12.1.0.2.jar“py4j.protocol.Py4JJavaErroroccurred while cal

浏览 0提问于2021-05-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何让Python库在Spark YARN上工作

相关·内容

火花纱-客户端模式Python版本

如何让Python库在Spark YARN上工作

纱线集群模式和独立模式下的PySpark应用程序提交错误

当使用火花提交时，哪里执行python脚本？

未在PySpark中加载的扩展程序:没有名为elephas.spark_model的模块

从笔记本电脑提交spark申请

ImportError:火花工作者上没有名为numpy的模块

aws EMR版本5.23.0是否支持python版本3.7.x？

PySpark内核(JupyterHub)能否在纱线-客户端模式下运行？

如何确保Spark主节点正在使用工作节点？(Google集群)

AWS EMR纱线集群上的Jupyterhub pyspark3

为什么火花提交在纱线集群模式下不会在执行器上找到python包？

在纱线集群上创建一个火花作业，其工人数量要比在火花上下文中指定的要小得多。

星星之交-群集模式失败，错误13，火花放电作业的权限被拒绝

如何发送和运行火花-提交与虚拟

更新后，Yarn无法在某些节点上启动AM

PYSPARK_PYTHON适用于部署模式的客户端，而不是部署模式的集群。

如何使用虚拟环境(包括python3解释器)来打包吡火花代码？

如何在纱线上运行一个卡夫卡连接工人？

Spark提交一个包含JAR依赖项的pyspark文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐