开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在YARN和HDP上运行Spark 2.2？

YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统中的一个资源管理器，用于分配和管理集群中的计算资源。HDP（Hortonworks Data Platform）是基于Apache Hadoop的一个开源数据平台。

要在YARN和HDP上运行Spark 2.2，可以按照以下步骤进行操作：

确保已经安装和配置了HDP集群，并且YARN服务已经启动。
下载Spark 2.2的二进制分发包，并将其上传到HDP集群的一个可访问的位置。
解压Spark 2.2的二进制分发包，并将其放置在所有的HDP节点上的相同路径下。
配置Spark的环境变量，可以在每个节点的spark-env.sh文件中进行配置。设置SPARK_HOME为Spark 2.2的安装路径。
配置Spark的YARN模式，可以在每个节点的spark-defaults.conf文件中进行配置。设置spark.master为yarn，设置spark.submit.deployMode为cluster。
启动Spark应用程序，可以使用以下命令提交一个Spark作业到YARN集群上：$SPARK_HOME/bin/spark-submit --class <main_class> --master yarn --deploy-mode cluster <application_jar>

其中，<main_class>是Spark应用程序的主类，<application_jar>是打包好的应用程序jar文件。

通过以上步骤，就可以在YARN和HDP上成功运行Spark 2.2。Spark可以利用YARN的资源管理功能，在HDP集群上进行分布式计算，实现大规模数据处理和分析。

腾讯云提供了一系列与云计算和大数据相关的产品和服务，例如腾讯云EMR（Elastic MapReduce），可以帮助用户快速搭建和管理大数据集群，并支持Spark等开源框架。更多关于腾讯云EMR的信息可以参考：腾讯云EMR产品介绍

请注意，以上答案仅供参考，具体操作步骤可能因环境和版本而有所差异。在实际操作中，请参考相关文档和官方指南，以确保正确配置和运行Spark在YARN和HDP上。

相关搜索:在HDP 2.4上运行Spark 2 可以在"Spark with Yarn“集群上运行任意的Python或R脚本吗？在yarn上运行的多个spark应用程序是否会相互影响？是否可以在Cygwin上以本地模式运行Spark作业(如WordCount示例)？如果我在更改spark-env.sh或spark -default之后在yarn上运行spark，是否需要重新启动节点？如何在spark-sql上运行更新查询如何在带有Spark的服务器上运行java程序？如何在windows上安装和运行芹菜？如何在github上编译和运行项目？在Yarn上运行Spark，如果我提交一个应用程序，它会调度哪个节点，nodemanager还是worker？如何在watchOS和iOS上后台运行函数？如何在useEffect上运行useEffect和setState multipletime 如何在windows，linux和macos上运行ci？如何在WebStorm和WSL上运行Jest测试如何在MacOS上正确安装和运行virtualenv 如何在ubuntu上的android studio 2.2中包含opencv和opencv_contrib模块？如何在Swift可执行文件(如"vi")中运行和打印zsh命令如何在zsh上安装和运行"hanami新书架“？MR/TEZ/SPARK作业运行的yarn ui中的队列百分比和群集差异百分比如何在同一台机器上安装Yarn v1和Yarn v2，以便在不同项目之间互换使用？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

让Spark运行在YARN上（Spark on YARN）

另外，YARN作为通用的资源调度平台，除了为Spark提供调度服务外，还可以为其他子系统（比如Hadoop MapReduce、Hive）提供调度，这样由YARN来统一为集群上的所有计算负载分配资源，可以避免资源分配的混乱无序...经过上述的部署，Spark可以很方便地访问HDFS上的文件，而且Spark程序在计算时，也会让计算尽可能地在数据所在的节点上进行，节省移动数据导致的网络IO开销。...YARN会先在集群的某个节点上为Spark程序启动一个称作Master的进程，然后Driver程序会运行在这个Master进程内部，由这个Master进程来启动Driver程序，客户端完成提交的步骤后就可以退出...Spark程序在运行时，大部分计算负载由集群提供，但Driver程序本身也会有一些计算负载。在yarn-cluster模式下，Driver进程在集群中的某个节点上运行，基本不占用本地资源。...而在yarn-client模式下，Driver会对本地资源造成一些压力，但优势是Spark程序在运行过程中可以进行交互。

4.2K4 0

Yarn上运行spark-1.6.0

2.2. ...tgz 3) 建立软链接：ln -s spark-1.6.0-bin-hadoop2.6 spark 在yarn上运行spark，不需要每台机器都安装spark，可以只安装在一台机器上。...启动Spark 由于运行在Yarn上，所以没有启动Spark这一过程。而是在执行命令spark-submit时，由Yarn调度运行Spark。 4.1. 运行自带示例 ....的值为cluster，也就是只能以client模式运行在Yarn上）： ....和Hive集成 Spark集成Hive非常简单，只需以下几步： 1) 在spark-env.sh中加入HIVE_HOME，如：export HIVE_HOME=/data/hadoop/hive

8551 0

Spark 在Yarn上运行Spark应用程序

ApplicationMasters 消除了对活跃客户端的依赖：启动应用程序的进程可以终止，并且从在集群上由 YARN 管理的进程继续协作运行。...1.1 Cluster部署模式在 Cluster 模式下，Spark Driver 在集群主机上的 ApplicationMaster 上运行，它负责向 YARN 申请资源，并监督作业的运行状况。...当用户提交了作业之后，就可以关掉 Client，作业会继续在 YARN 上运行。 ? Cluster 模式不太适合使用 Spark 进行交互式操作。...需要用户输入的 Spark 应用程序（如spark-shell和pyspark）需要 Spark Driver 在启动 Spark 应用程序的 Client 进程内运行。...在YARN上运行Spark Shell应用程序要在 YARN 上运行 spark-shell 或 pyspark 客户端，请在启动应用程序时使用 --master yarn --deploy-mode

1.8K1 0

执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client

1、执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client，错误如下所示： 18/04/22 09:28:22 ERROR SparkContext:...Error initializing SparkContext. org.apache.spark.SparkException: Yarn application has already ended...: Yarn application has already ended!...下面分别是运行失败前和运行成功后的效果如下所示： ?...命令运行如下所示： [hadoop@slaver1 spark-1.5.1-bin-hadoop2.4]$ spark-shell --master yarn-client 18/04/22 09:37

1.8K5 0

如何在HDFS上查看YARN历史作业运行日志

，或者开通了8088，没有开通单个NodeManager如8042时，在MapReduce作业有失败时，往往我们没法直接通过界面查看某个container具体报错日志，从而不方便分析作业出错原因。...这时，我们可以在HDFS上查看MapReduce的历史作业日志。本篇文章主要介绍如何通过HDFS查看YARN历史作业Container日志。...内容概述 1.提交作业 2.查看Container日志测试环境 1.CM和CDH版本为5.11.2 2.作业提交 ---- 这里我们通过一个作业来说明日志的存储路径，首先在命令行向集群提交一个作业：...INFO mapreduce.Job: Running job: job_1514262166956_0009 [hri6ozu7g7.jpeg] 3.查看各个Container的日志 ---- 在CDH上默认将...yarn.log-aggregation-enable参数设置为true，使运行完成的任务将日志推送到HDFS上，以方便作业日志集中管理和分析。

6.2K4 0

在Hadoop YARN群集之上安装，配置和运行Spark

什么是Spark？ Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。...Spark最初设计用于运行Scala应用程序，但也支持Java，Python和R....jps在每个节点上运行以确认HDFS和YARN正在运行。如果不是，请通过以下方式启动服务： start-dfs.sh start-yarn.sh 注意：本指南是为非root用户编写的。...了解客户端和群集模式 Spark作业可以在YARN上以两种模式运行：集群模式和客户端模式。了解两种模式之间的差异对于选择适当的内存分配配置以及按预期提交作业非常重要。...Spark Executors仍然在集群上运行，为了安排一切，创建了一个小的YARN Application Master。客户端模式非常适合交互式作业，但如果客户端停止，应用程序将失败。

3.6K3 1

0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

作者：谢敏灵，Cloudera资深解决方案架构师背景数据质量平台基于定义好的数据稽核和数据质量规则，生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。...这些jar只需要出现在driver上，但是如果在yarn cluster模式下运行，那么必须确保它们与应用程序打包在一起。...HDP Spark的默认配置为：/usr/hdp/current/spark2-client/standalone-metastore/* 2.2 Option 1：使用外部Hive Jar包在/usr...同时，还需要把CDH的yarn配置目录conf.cloudera.yarn整体复制到HDP Hadoop配置目录/etc/hadoop目录下： ? Spark访问外部Hive表测试验证： ?...3.2 Option 2：HDFS跨集群访问 Option 1需要复制CDH的hdfs-site.xml、core-site.xml和conf.cloudera.yarn到HDP的相应目录下，比较麻烦，

3.2K2 0

用oozie命令行的方式在yarn上运行spark任务

注意：杀死yarn进程的命令 yarn application -kill applicationID 1.做这个实验之前你的服务器上最好装了cdh集群，以及添加必要的组件，如hadoop，oozie，...spark，yarn等。...2.需要准备一个关于spark的demo架包，我写的是WordCount功能的jar，网上关于这个的一大堆。...3.准备一个job.propertie和workflow.xml，内容如下 job.properties ? workflow.xml ?...4.然后在服务器上执行如下命令： ? 5.打开oozie的界面 ? 6.查看yarn的界面 ? 7.查看yarn的日志文件 ?

2.3K0 0

【数据科学】数据科学中的 Spark 入门

随着 Apache Spark 1.3.1 技术预览版的发布，强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。...以下假设 HDP 2.2 和 Spark 已经安装在集群上。 Spark 可以使用 Ambari 2.0 安装成一个 service，或者按照这篇文章的描述下载和配置。...配置Zeppelin 为了在YARN客户端模式下运行解释器，需要在 $SPARK_HOME/conf/spark-defaults.conf 重写以下这些属性： 12345 master yarn-clientspark.driver.extraJavaOptions...-Dhdp.version=$hdp.versionspark.home $spark.homespark.yarn.am.extraJavaOptions -Dhdp.version=$hdp.versionspark.yarn.jar...在下一篇文章中，我们将深入讨论一个具体的数据科学问题，并展示如何使用 Zeppelin、Spark SQL 和 MLLib 来创建一个使用 HDP、Spark 和 Zeppelin 的数据科学项目。

1.5K6 0

搭建Spark高可用集群

比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。...Mesos：Spark可以运行在Mesos里面（Mesos 类似于yarn的一个资源调度框架） standalone：Spark自己可以给自己分配资源（master，worker） YARN：Spark...可以运行在yarn上面 Kubernetes：Spark接收 Kubernetes的资源调度 Spark的组成 Spark组成(BDAS)：全称伯克利数据分析栈，通过大规模集成算法、机器、人之间展现大数据应用的一个平台...它的主要组件有： SparkCore：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。...hello hdfs hello yarn yarn hdfs [root@hdp-01 ~]# hadoop fs -mkdir -p /spark [root@hdp-01 ~]# hadoop

7852 0

Hortonworks正式发布HDP3.0

2.2.NameNode联邦 ---- 1.使用Ambari UI向导可以启用NameNode联邦，从而线性的扩展HDFS namespace，同时支持Hive，Spark和Ranger。 ?...3.YARN 3.1.YARN上的容器化服务 1.YARN支持运行Docker容器。 2.YARN上支持Docker化的Spark作业。...History Server支持安全与ACL 4.支持在Docker容器中运行Spark作业 5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0 6.与S3Guard/S3A的开发人员进行...3.查询日志这是一个新的系统表“SYSTEM.LOG”，它捕获有关针对集群运行的查询的信息（客户端驱动的）。 4.列编码这是HDP的新功能。...8.Ranger插件兼容HDP3.0其他的组件包括Hive，HDFS，Storm，HBase，Kafka和YARN。

3.5K3 0

如何在 IntelliJ 上运行 Elixir 和 Phoenix 程序？

这是我参与「掘金日新计划 · 8 月更文挑战」的第11天，点击查看活动详情 Elixir 是一门非常强大的函数式编程语言，Elixir 社区构建了一个插件，该插件可以在 Jetbrains 的 IDE 上运行...由于 Elixir 运行在 BEAM 上，所以我们需要在 IntelliJ 上能够查看到 Elixir 和 Erlang SDK，我们需要通过 IntelliJ IDEA -> Preferences...这两个查看都需要在 IntelliJ 上配置相应的 SDK。...在安装了 Elixir 和 Erlang 插件的前提下打开使用 IntelliJ 打开 Phoenix Web 项目，项目会自动设置 Elixir 和 Erlang 的 SDK，如果没有你可以通过 File...启动项目浏览器访问 http://localhost:4000 错误解决 Elixir 和 Erlang 插件在安装之后可能出现无法正常运行的情况，可以通过以下方式解决：如果出现一些无法找到文件或者模块的错误

1.5K2 0

大数据统一SQL网关：最新版Kyuubi整合Flink、Spark方案的实践案例总结

前言 Kyuubi最新版本已经发布，本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。.../usr/hdp/3.1.5.0-152/hadoop-yarn/lib/*:/usr/hdp/3.1.5.0-152/hadoop/*:/usr/hdp/3.1.5.0-152/hadoop-mapreduce.../usr/hdp/3.1.5.0-152/hadoop-yarn/lib/*:/usr/hdp/3.1.5.0-152/hadoop/*:/usr/hdp/3.1.5.0-152/hadoop-mapreduce...，jdbc url支持动态设置引擎类型和运行模式。...;flink.yarn.application.id=application_1698577744226_0068' 执行上述测试用例，可以看到SQL已经提交到yarn-session集群运行。

9001 0

【大数据版本对比】Hortonworks HDP2.x到3.x技术演进及版本梳理

---- 2、HDP2.6.5版本：主要升级了Kafka和Spark的版本，并无明显新特性。...3.3.YARN 3.3.1.YARN上的容器化服务 1.YARN支持运行Docker容器。 2.YARN上支持Docker化的Spark作业。...3.支持Slider功能，简化YARN的REST API和DNS发现。 3.3.2.增强的可靠性，可用性和可维护性 1.对于用户和开发人员更友好的YARN UI。...3.4.机器学习与深度学习主要包括Spark/Zeppelin/Livy 1、支持Apache Spark 2.3.1 GA 2、支持在Docker容器中运行Spark作业 3、TensorFlow...8.Ranger插件兼容HDP3.0其他的组件包括Hive，HDFS，Storm，HBase，Kafka和YARN。

3.9K4 0

Kylin配置Spark并构建Cube（修订版）

一、配置Kylin的相关Spark参数在运行 Spark cubing 前，建议查看一下这些配置并根据集群的情况进行自定义。...=-Dhdp.version=current 其中 kylin.engine.spark-conf.spark.yarn.archive 配置是指定了 Kylin 引擎要运行的 jar 包，该 jar.../spark/jars/ ./ # 上传到HDFS上的指定目录 hadoop fs -mkdir -p /kylin/spark/ hadoop fs -put spark-libs.jar /kylin...点击 “Next” 和 “Save” 保存 Cube。对于没有”COUNT DISTINCT” 和 “TOPN” 的 Cube，请保留默认配置。...具体操作步骤如下： su - kylin cd /usr/hdp/2.6.4.0-91/kylin cp -r /usr/hdp/2.6.4.0-91/hbase/lib/hbase* /usr/hdp

8912 0

Kylin配置Spark并构建Cube

一、配置Kylin的相关Spark参数在运行 Spark cubing 前，建议查看一下这些配置并根据集群的情况进行自定义。...=-Dhdp.version=current 其中 kylin.engine.spark-conf.spark.yarn.archive 配置是指定了 Kylin 引擎要运行的 jar 包，该 jar.../spark/jars/ ./ # 上传到HDFS上的指定目录 hadoop fs -mkdir -p /kylin/spark/ hadoop fs -put spark-libs.jar /kylin...点击 “Next” 和 “Save” 保存 Cube。对于没有”COUNT DISTINCT” 和 “TOPN” 的 Cube，请保留默认配置。...解决办法：确保 Yarn 服务的 yarn.scheduler.maximum-allocation-mb 参数值和 Kylin 服务的 kylin.engine.spark-conf.spark.yarn.executor.memoryOverhead

1.2K5 0

Hadoop体系_集团架构

很多知名公司都加入Hadoop相关项目的开发中，如Facebook、Yahoo等，围绕大数据Hadoop技术产生了一系列大数据的相关技术如 Spark、Hive、HCatalog、HBase、Zookeeper...5、Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。 6、Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。...---- 2．2 Hadoop的体系架构 ---- 2．2．1 分布式文件系统HDFS HDFS 是一种分布式文件系统，为在商用硬件上运行而设计。...ApplicationMaster（AM） ApplicationMaster管理一个在YARN内运行的应用程序的每个实例。...（4）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

1.1K2 1

012.DolphinScheduler案例实战

注意：这里的队列就是Yarn中的队列，Yarn中的队列默认叫做default，在DS中要提交一个任务到Yarn的队列中，在这里要创建与Yarn队列同名的队列，并且Yarn上的队列要提前创建好添加租户...我们的案例是提交任务到yarn，所以需要使用hdfs用户来提交，所以创建的租户就是hdfs ? 创建告警组告警组是在启动时设置的参数，在流程结束以后会将流程的状态和其他信息以邮件形式发送给告警组。...页面上没有提供创建Worker分组的操作，需要修改worker.properties配置文件，例如，我要让hdp02和hdp03这两个节点组成一个分组test来执行特定的任务，那么应该分别编辑hdp02...和hdp03这两个节点下dolphinscheduler/conf/worker.properties： worker.groups=default,test 然后重启DS，我们这里就使用默认分组来执行任务...运行工作流 ? ? ? 调度工作流 ? ? ? ? ? ? 可以看到任务已经开始调度执行了。

2.1K2 0

CDP PVC基础版的新功能

如果您是CDH或HDP用户，则除了从CDH和HDP版本转移到CDP的功能之外，还可以查看CDP私有云基础版中可用的新功能。...支持Knox 通过滚动重启和自动重新平衡来增强操作大量改进可用性添加了新的数据类型，如DATE，VARCHAR和对HybridClock时间戳的支持 Yarn 新的Yarn队列管理器放置规则使您无需指定队列名称即可提交作业...“ Cloudera Applications”，“ Operations and Management”和 “ Encryption”框中的组件在CDH Cluster Services周界中定义的群集包络之外运行.../MR到Hive-on-Tez YARN Fairshare到YARN Capacity Spark 1.6到Spark 2.4 NavOpt到WorkloadXM Pig到Hive or Spark...通过Kudu和Impala更新支持报告带有Kudu + Spark的实时和流式应用程序时间序列分析，事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验 Yarn 过渡到Capacity

9052 0

Ambari + HDP 整体介绍

Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具，此处的Hadoop集群不单单指Hadoop集群，而是泛指hadoop 整个生态，包括Hdfs，yarn,Spark...HDP：HDP包中包含了很多常用的工具，比如Hadoop，Hive，Hbase，Spark等 HDP-Util：包含了公共包，比如ZK等一些公共组件。 ...通过Ambari Web工具部署Hdfs，Spark，Hive，Zk，Hbase，Flume等，想怎么部署就怎么部署，鼠标选择服务和需要部署的节点即可 5....通过Ambari Web工具进行集群监控，并且对警告及错误进行处理部署准备：MySql,JDK,Ambari,HDP,HDP-Util，和上面老的部署方式相比，是不是少了很多 ...接下来就可以根据我们的需求使用集群了，这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

2301 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭