首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何在YARN和HDP上运行Spark 2.2?

YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的一个资源管理器,用于分配和管理集群中的计算资源。HDP(Hortonworks Data Platform)是基于Apache Hadoop的一个开源数据平台。

要在YARN和HDP上运行Spark 2.2,可以按照以下步骤进行操作:

  1. 确保已经安装和配置了HDP集群,并且YARN服务已经启动。
  2. 下载Spark 2.2的二进制分发包,并将其上传到HDP集群的一个可访问的位置。
  3. 解压Spark 2.2的二进制分发包,并将其放置在所有的HDP节点上的相同路径下。
  4. 配置Spark的环境变量,可以在每个节点的spark-env.sh文件中进行配置。设置SPARK_HOME为Spark 2.2的安装路径。
  5. 配置Spark的YARN模式,可以在每个节点的spark-defaults.conf文件中进行配置。设置spark.masteryarn,设置spark.submit.deployModecluster
  6. 启动Spark应用程序,可以使用以下命令提交一个Spark作业到YARN集群上:$SPARK_HOME/bin/spark-submit --class <main_class> --master yarn --deploy-mode cluster <application_jar>

其中,<main_class>是Spark应用程序的主类,<application_jar>是打包好的应用程序jar文件。

通过以上步骤,就可以在YARN和HDP上成功运行Spark 2.2。Spark可以利用YARN的资源管理功能,在HDP集群上进行分布式计算,实现大规模数据处理和分析。

腾讯云提供了一系列与云计算和大数据相关的产品和服务,例如腾讯云EMR(Elastic MapReduce),可以帮助用户快速搭建和管理大数据集群,并支持Spark等开源框架。更多关于腾讯云EMR的信息可以参考:腾讯云EMR产品介绍

请注意,以上答案仅供参考,具体操作步骤可能因环境和版本而有所差异。在实际操作中,请参考相关文档和官方指南,以确保正确配置和运行Spark在YARN和HDP上。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

让Spark运行在YARN上(Spark on YARN)

另外,YARN作为通用的资源调度平台,除了为Spark提供调度服务外,还可以为其他子系统(比如Hadoop MapReduce、Hive)提供调度,这样由YARN来统一为集群上的所有计算负载分配资源,可以避免资源分配的混乱无序...经过上述的部署,Spark可以很方便地访问HDFS上的文件,而且Spark程序在计算时,也会让计算尽可能地在数据所在的节点上进行,节省移动数据导致的网络IO开销。...YARN会先在集群的某个节点上为Spark程序启动一个称作Master的进程,然后Driver程序会运行在这个Master进程内部,由这个Master进程来启动Driver程序,客户端完成提交的步骤后就可以退出...Spark程序在运行时,大部分计算负载由集群提供,但Driver程序本身也会有一些计算负载。在yarn-cluster模式下,Driver进程在集群中的某个节点上运行,基本不占用本地资源。...而在yarn-client模式下,Driver会对本地资源造成一些压力,但优势是Spark程序在运行过程中可以进行交互。

4.2K40
  • Spark 在Yarn上运行Spark应用程序

    ApplicationMasters 消除了对活跃客户端的依赖:启动应用程序的进程可以终止,并且从在集群上由 YARN 管理的进程继续协作运行。...1.1 Cluster部署模式 在 Cluster 模式下,Spark Driver 在集群主机上的 ApplicationMaster 上运行,它负责向 YARN 申请资源,并监督作业的运行状况。...当用户提交了作业之后,就可以关掉 Client,作业会继续在 YARN 上运行。 ? Cluster 模式不太适合使用 Spark 进行交互式操作。...需要用户输入的 Spark 应用程序(如spark-shell和pyspark)需要 Spark Driver 在启动 Spark 应用程序的 Client 进程内运行。...在YARN上运行Spark Shell应用程序 要在 YARN 上运行 spark-shell 或 pyspark 客户端,请在启动应用程序时使用 --master yarn --deploy-mode

    1.8K10

    如何在HDFS上查看YARN历史作业运行日志

    ,或者开通了8088,没有开通单个NodeManager如8042时,在MapReduce作业有失败时,往往我们没法直接通过界面查看某个container具体报错日志,从而不方便分析作业出错原因。...这时,我们可以在HDFS上查看MapReduce的历史作业日志。本篇文章主要介绍如何通过HDFS查看YARN历史作业Container日志。...内容概述 1.提交作业 2.查看Container日志 测试环境 1.CM和CDH版本为5.11.2 2.作业提交 ---- 这里我们通过一个作业来说明日志的存储路径,首先在命令行向集群提交一个作业:...INFO mapreduce.Job: Running job: job_1514262166956_0009 [hri6ozu7g7.jpeg] 3.查看各个Container的日志 ---- 在CDH上默认将...yarn.log-aggregation-enable参数设置为true,使运行完成的任务将日志推送到HDFS上,以方便作业日志集中管理和分析。

    6.2K40

    在Hadoop YARN群集之上安装,配置和运行Spark

    什么是Spark? Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。...Spark最初设计用于运行Scala应用程序,但也支持Java,Python和R....jps在每个节点上运行以确认HDFS和YARN正在运行。如果不是,请通过以下方式启动服务: start-dfs.sh start-yarn.sh 注意: 本指南是为非root用户编写的。...了解客户端和群集模式 Spark作业可以在YARN上以两种模式运行:集群模式和客户端模式。了解两种模式之间的差异对于选择适当的内存分配配置以及按预期提交作业非常重要。...Spark Executors仍然在集群上运行,为了安排一切,创建了一个小的YARN Application Master。 客户端模式非常适合交互式作业,但如果客户端停止,应用程序将失败。

    3.6K31

    0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

    作者:谢敏灵,Cloudera资深解决方案架构师 背景 数据质量平台基于定义好的数据稽核和数据质量规则,生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。...这些jar只需要出现在driver上,但是如果在yarn cluster模式下运行,那么必须确保它们与应用程序打包在一起。...HDP Spark的默认配置为:/usr/hdp/current/spark2-client/standalone-metastore/* 2.2 Option 1:使用外部Hive Jar包 在/usr...同时,还需要把CDH的yarn配置目录conf.cloudera.yarn整体复制到HDP Hadoop配置目录/etc/hadoop目录下: ? Spark访问外部Hive表测试验证: ?...3.2 Option 2:HDFS跨集群访问 Option 1需要复制CDH的hdfs-site.xml、core-site.xml和conf.cloudera.yarn到HDP的相应目录下,比较麻烦,

    3.2K20

    【数据科学】数据科学中的 Spark 入门

    随着 Apache Spark 1.3.1 技术预览版的发布,强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。...以下假设 HDP 2.2 和 Spark 已经安装在集群上。 Spark 可以使用 Ambari 2.0 安装成一个 service,或者按照这篇文章的描述下载和配置。...配置Zeppelin 为了在YARN客户端模式下运行解释器,需要在 $SPARK_HOME/conf/spark-defaults.conf 重写以下这些属性: 12345 master yarn-clientspark.driver.extraJavaOptions...-Dhdp.version=$hdp.versionspark.home $spark.homespark.yarn.am.extraJavaOptions -Dhdp.version=$hdp.versionspark.yarn.jar...在下一篇文章中,我们将深入讨论一个具体的数据科学问题,并展示如何使用 Zeppelin、Spark SQL 和 MLLib 来创建一个使用 HDP、Spark 和 Zeppelin 的数据科学项目。

    1.5K60

    搭建Spark高可用集群

    比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。...Mesos:Spark可以运行在Mesos里面(Mesos 类似于yarn的一个资源调度框架) standalone:Spark自己可以给自己分配资源(master,worker) YARN:Spark...可以运行在yarn上面 Kubernetes:Spark接收 Kubernetes的资源调度 Spark的组成 Spark组成(BDAS):全称伯克利数据分析栈,通过大规模集成算法、机器、人之间展现大数据应用的一个平台...它的主要组件有: SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。...hello hdfs hello yarn yarn hdfs [root@hdp-01 ~]# hadoop fs -mkdir -p /spark [root@hdp-01 ~]# hadoop

    78520

    如何在 IntelliJ 上运行 Elixir 和 Phoenix 程序?

    这是我参与「掘金日新计划 · 8 月更文挑战」的第11天,点击查看活动详情 Elixir 是一门非常强大的 函数式 编程语言,Elixir 社区构建了一个插件,该插件可以在 Jetbrains 的 IDE 上运行...由于 Elixir 运行在 BEAM 上,所以我们需要在 IntelliJ 上能够查看到 Elixir 和 Erlang SDK,我们需要通过 IntelliJ IDEA -> Preferences...这两个查看都需要在 IntelliJ 上配置相应的 SDK。...在安装了 Elixir 和 Erlang 插件的前提下打开使用 IntelliJ 打开 Phoenix Web 项目,项目会自动设置 Elixir 和 Erlang 的 SDK,如果没有你可以通过 File...启动项目 浏览器访问 http://localhost:4000 错误解决 Elixir 和 Erlang 插件在安装之后可能出现无法正常运行的情况,可以通过以下方式解决: 如果出现一些无法找到文件或者模块的错误

    1.5K20

    Hadoop体系_集团架构

    很多知名公司都加入Hadoop相关项目的开发中,如Facebook、Yahoo等,围绕大数据Hadoop技术产生了一系列大数据的相关技术 如 Spark、Hive、HCatalog、HBase、Zookeeper...5、Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。 6、Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。...---- 2.2 Hadoop的体系架构 ---- 2.2.1 分布式文件系统HDFS HDFS 是一种分布式文件系统,为在商用硬件上运行而设计。...ApplicationMaster(AM) ApplicationMaster管理一个在YARN内运行的应用程序的每个实例。...(4)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

    1.1K21

    012.DolphinScheduler案例实战

    注意:这里的队列就是Yarn中的队列,Yarn中的队列默认叫做default,在DS中要提交一个任务到Yarn的队列中,在这里要创建与Yarn队列同名的队列,并且Yarn上的队列要提前创建好 添加租户...我们的案例是提交任务到yarn,所以需要使用hdfs用户来提交,所以创建的租户就是hdfs ? 创建告警组 告警组是在启动时设置的参数,在流程结束以后会将流程的状态和其他信息以邮件形式发送给告警组。...页面上没有提供创建Worker分组的操作,需要修改worker.properties配置文件,例如,我要让hdp02和hdp03这两个节点组成一个分组test来执行特定的任务,那么应该分别编辑hdp02...和hdp03这两个节点下dolphinscheduler/conf/worker.properties: worker.groups=default,test 然后重启DS,我们这里就使用默认分组来执行任务...运行工作流 ? ? ? 调度工作流 ? ? ? ? ? ? 可以看到任务已经开始调度执行了。

    2.1K20

    CDP PVC基础版的新功能

    如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。...支持Knox 通过滚动重启和自动重新平衡来增强操作 大量改进可用性 添加了新的数据类型,如DATE,VARCHAR和对HybridClock时间戳的支持 Yarn 新的Yarn队列管理器 放置规则使您无需指定队列名称即可提交作业...“ Cloudera Applications”,“ Operations and Management”和 “ Encryption”框中的组件在CDH Cluster Services周界中定义的群集包络之外运行.../MR到Hive-on-Tez YARN Fairshare到YARN Capacity Spark 1.6到Spark 2.4 NavOpt到WorkloadXM Pig到Hive or Spark...通过Kudu和Impala更新支持报告 带有Kudu + Spark的实时和流式应用程序 时间序列分析,事件分析和实时数据仓库以最智能的自动完成功能提供最佳的 查询体验 Yarn 过渡到Capacity

    90520

    Ambari + HDP 整体介绍

    Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具,此处的Hadoop集群不单单指Hadoop集群,而是泛指hadoop 整个生态,包括Hdfs,yarn,Spark...HDP:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         HDP-Util:包含了公共包,比如ZK等一些公共组件。     ...通过Ambari Web工具 部署Hdfs,Spark,Hive,Zk,Hbase,Flume等,想怎么部署就怎么部署,鼠标选择服务和需要部署的节点即可         5....通过Ambari Web工具进行集群监控,并且对警告及错误进行处理         部署准备:MySql,JDK,Ambari,HDP,HDP-Util,和上面老的部署方式相比,是不是少了很多    ...接下来就可以根据我们的需求使用集群了,这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

    23010
    领券