在spark standalone中使用spark- SparkContext时初始化spark时出错 - 腾讯云开发者社区

本文的目标是写一个Spark应用，并可以在集群中测试。...运行工程使用spark提供的命令运行我们的spark应用。 --master local[4]表示在local模式下运行，使用4个线程。...现在，我们完成了一个简单的spark工程的开发。下一步，看看如何在集群中运行。启动一个standalone集群环境。部署一个standalone集群环境不是本文要讲的内容。...（我猜的） Spark使用ZooKeeper的实现主服务器的灾难恢复。 Slave worker 集群环境中，主从架构里的从服务器。...Master URL 在standalone集群环境中，master服务器启动后，master服务器提供了一个master URL用于和slave workers交互。

6835 0

Spark RDD类源码阅读

对象后才能使用RDD的调用 private def sc: SparkContext = { if (_sc == null) { throw new SparkException...val externalBlockStoreFolderName = "spark-" + randomUUID.toString() //判断是否为local模式 def isLocal: Boolean...= HashMap[String, String]() // 设置正在使用SparkContext的用户 val sparkUser = Utils.getCurrentUserName()..." || master == "yarn-standalone") && !....getOrElse(1024) //500这里在创建HeartbeatReceiver 之前先创建createTaskScheduler，因为每个Executor在构造函数中检索HeartbeatReceiver

6111 0

您找到你想要的搜索结果了吗？

是的

没有找到

Spark的调度系统

资源的分配方式，在每种集群运行模式中有些不同： 1，standalone模式默认情况下，app在Standalone集群中以FIFO的方式运行。...这意味着如果您的应用程序不再使用，您的应用程序可能会将资源返回给群集，并在需要时再次请求它们。如果多个应用程序在Spark群集中共享资源，则此功能特别有用。...B)，指定spark--yarn-shuffle.jar。...2，资源申请策略在高层次上，Spark在不再使用时应放弃executors ，在需要时申请executors 。...要启用公平调度程序，只需在配置SparkContext时将spark.scheduler.mode属性设置为FAIR： val conf = new SparkConf().setMaster(...)

1.7K8 0

Zzreal的大数据笔记-SparkDay03

Spark的运行模式 Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况...，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。...本地模式：常用于本地开发测试，本地还分别 local 和 local cluster （1）standalone: 独立集群运行模式 Standalone模式使用Spark自带的资源调度框架，采用Master...当用Spark-shell交互式工具提交Spark的Job时，Driver在Master节点上运行；当使用Spark-submit工具提交Job或者在Eclips、IDEA等开发平台上使用”new SparkConf.setManager...这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler

6049 0

Spark核心技术原理透视二（Spark运行模式）

上一章节详细讲了Spark的运行原理，没有关注的童鞋可以关注加米谷大数据查看上一章节的详细内容。通过Spark运行原理的讲解大家了解了Spark在底层的运行，那Spark的运行模式又是什么样的呢？...1、Spark运行模式主要分为以下几种，如图所示。 2、Spark on Standalone 模式 Standalone模式如下图所示。...同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler； 2）Yarn-Client 第二步：ResourceManager收到请求后，在集群中选择一个NodeManager...第五步：Client中的SparkContext分配Task给Executor执行，Executor运行Task并向Driver汇报运行的状态和进度，以让Client随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务...，要求它在这个Container中启动应用程序的ApplicationMaster，其中ApplicationMaster进行SparkContext等的初始化； 3）Yarn-Cluster 第三步

1.5K7 0

慕课网Spark SQL日志分析 - 2.Spark 实战环境搭建

Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package 或 (推荐使用...Phadoop-2.6 -Phive -Phive-thriftserver -Pmesos -Pyarn -Pkubernetes Dhadoop.version=2.6.0-cdh5.7.0 编译完成后: spark...resolve dependencies for project org.apache.spark:spark- launcher_2.11:jar:2.2.0: Failure to find org.apache.hadoop...image.png standalone模式和hadoop/yarn 类似 1 master + n slave # spark-env.sh SPARK_MASTER_HOST=xxxx SPARK_WORKER_CORES...image.png # 启动sell spark-shell --master spark://host:ip 3.Spark简单使用 val file = spark.sparkContext.textFile

7531 0

Spark基础

Spark程序运行并行度高；容错性高 1.Spark通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性的数据集，这些集合是弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来实现重建...CheckPoint机制是我们在spark中用来保障容错性的主要机制，它可以阶段性的把应用数据存储到诸如HDFS等可靠存储系统中，以供恢复时使用。...在yarn或者standalone下使用 5、简述Spark的作业提交流程 Spark的作业提交流程根据部署模式不同，其提交流程也不相同。...yarn-client 1.client向ResouceManager申请启动ApplicationMaster，同时在SparkContext初始化中创建DAGScheduler和TaskScheduler2...与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派3.Client中的SparkContext初始化完毕后

4212 0

SparkContext初始化过程

SparkContext在构造的过程中，已经完成了各项服务的启动。因为Scala语法的特点，所有构造函数都会调用默认的构造函数，而默认构造函数的代码直接在类定义中。...除了初始化各类配置、日志之外，最重要的初始化操作之一是启动Task调度器和DAG调度器，相关代码如下： // 创建并启动Task调度器 val (sched, ts) = SparkContext.createTaskScheduler...而Task调度器只负责接受DAG调度器的请求，负责Task的实际调度执行，所以DAGScheduler的初始化必须在Task调度器之后。...根据Spark程序提交时指定的不同模式，可以启动不同类型的调度器。并且出于容错考虑，createTaskScheduler会返回一主一备两个调度器。..." | "yarn-cluster" => if (master == "yarn-standalone") { logWarning("\"yarn-standalone

7064 0

独孤九剑-Spark面试80连击(下)

用户自定义函数可以在 Spark SQL 中定义和注册为 UDF，并且可以关联别名，这个别名可以在后面的 SQL 查询中使用。...如果我们只使用 Spark 进行大数据计算，不使用其他的计算框架（如MapReduce或者Storm）时，就采用 Standalone 模式就够了，尤其是单用户的情况下。...当用 spark-shell 交互式工具提交 Spark 的 Job 时，Driver 在 Master 节点上运行；当使用 spark-submit 工具提交 Job 或者在 Eclipse、IDEA...Mesos粗细度对比 Mesos 粗粒度运行模式中，Spark 程序在注册到 Mesos 的时候会分配对应系统资源，在执行过程中由 SparkContext 和 Executor 直接进行交互。...说说DStreamGraph Spark Streaming 中作业生成与 Spark 核心类似，对 DStream 进行的各种操作让它们之间的操作会被记录到名为 DStream 使用输出操作时，这些依赖关系以及它们之间的操作会被记录到明伟

1.1K4 0

独孤九剑-Spark面试80连击(下)

1.4K1 1

独孤九剑-Spark面试80连击(下)

8852 0

【Spark研究】Spark之工作原理

基本概念理解Spark的运行模式涉及一系列概念：（1）Cluster Manager：在集群上获取资源的外部服务。目前有三种类型：1. Standalone, Spark原生的资源管理；2....（12）共享变量：Spark Application在整个运行过程中，可能需要一些变量在每个Task中都使用，共享变量用于实现该目的。...而当以分布式的方式运行在Cluster集群中时，底层的资源调度可以使用Mesos 或者是Hadoop Yarn ，也可以使用Spark自带的Standalone Deploy模式。.../bin/spark-submit --master yarn-client yarn-cluster SparkContext和任务都运行在Yarn集群中，集群在HADOOP_CONF_DIR 中设置...SparkContext在初始化过程中分别创建DAGScheduler（进行Stage调度）和TaskScheduler（进行Task调度）两个模块。

1.4K5 1

Spark on yarn

使用哪种模式可以在spark-submit时通过 --deploy-mode cluster/client 指定。...中初始化SparkContext ApplicationMaster向RM申请到Container后通知NodeManager在获得的Container中启动Executor进程 sparkContext...进程 driver进程运行在client中，并初始化sparkContext sparkContext初始化完成后与ApplicationMaster通讯，通过ApplicationMaster向RM申请...Container，ApplicationMaster通知NM在获得的Container中启动executor sparkContext分配Task给Executor，Executor发送运行状态给Driver...比较 sparkContext初始化不同，这也导致了Driver所在位置的不同，Yarn-Cluster的Driver是在集群的某一台NM上，Yarn-Client 的Driver运行在客户端而

1.6K2 0

数据分析工具篇——spark on yarn模式

中启动应用程序的ApplicationMaster，与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派...； 3）Client中的SparkContext初始化完毕后，与ApplicationMaster建立通讯，向ResourceManager注册，根据任务信息向ResourceManager申请资源（Container...这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler...； 6）应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己；在Spark作业运行过程中，一般情况下会有大量数据在Driver和集群中进行交互，所以如果是基于...那么网络传输压力相对要小；所以在企业生产环境下多使用yarn-cluster这种模式，测试多用yarn-client这种模式。

8141 0

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

创建Maven Project SparkContext实例创建 WordCount代码编写使用spark-submit提交应用执行 03-[掌握]-Standalone集群【架构组成】 ...Spark Stanadlone集群类似Hadoop YARN集群功能，管理整个集群中资源（CUP Core核数、内存Memory、磁盘Disk、网络带宽等） Standalone集群使用了分布式计算中的...按照讲义上步骤进行配置即可，具体步骤如下： 05-[掌握]-Standalone 集群【服务启动和运行应用】在Master节点node1.itcast.cn上启动，进入$SPARK_HOME...运行spark-shell交互式命令在Standalone集群上，命令如下： /export/server/spark/bin/spark-shell --master spark://node1....itcast.cn:7077 在spark-shell中执行词频统计WordCount程序代码，运行如下： val inputRDD = sc.textFile("/datas/wordcount.data

4322 0

Spark Scheduler 内部原理剖析

分布式运行框架 Spark可以部署在多种资源管理平台，例如Yarn、Mesos等，Spark本身也实现了一个简易的资源管理机制，称之为Standalone模式。...Driver初始化SparkContext过程中，会分别初始化DAGScheduler TaskScheduler SchedulerBackend以及HeartbeatReceiver。...在记录Task失败次数过程中，会记录它上一次失败所在的Executor Id和Host，这样下次再调度这个Task时，会使用黑名单机制，避免它被调度到上一次失败的节点上，起到一定的容错作用。...当启用动态Executor申请时，在SparkContext初始化过程中会实例化ExecutorAllocationManager，它是被用来专门控制动态Executor申请逻辑的，动态Executor...了解Spark Schedule有助于帮助我们清楚地认识Spark应用程序的运行轨迹，同时在我们实现其他系统时，也可以借鉴Spark的实现。

3.9K4 0

搭建Spark高可用集群

这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。...Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。...此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。...spark-env.sh [root@hdp-01 conf]# vi spark-env.sh 在该配置文件中添加如下配置 export JAVA_HOME=/root/apps/jdk1.8.0_...Spark Shell中已经默认将SparkContext类初始化为对象sc。

7852 0

最最简单的~WordCount¬

sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println) 不使用...foreach时，调用了runJob函数，实现了重载。...然后读取Finall RDD的分区数，通过allowLocal来表示是否在Standalone模式下执行。...从spark-shell到sparkContext的创建的调用路径: spark-shell -> spark-submit ->spark-class->sparkSubmit.main ->SparkILoop...-> createSparkContext SpackContext初始化过程中传入的入参是SparkConf 一、根据初始化生成SparkConf,再根据SparkConf来创建SparkEnv.

3621 0

深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

Spark部署模式分以下几种： local 模式 local-cluster 模式 Standalone 模式 YARN 模式 Mesos 模式我们先来简单介绍下YARN模式，然后深入讲解Standalone...启动app，在SparkContxt启动过程中，先初始化DAGScheduler 和 TaskScheduler，并初始化 SparkDeploySchedulerBackend，并在其内部启动DriverEndpoint...创建完毕后发送信息给Master和DriverEndpoint，告知Executor创建完毕，在SparkContext注册，后等待DriverEndpoint发送执行任务的消息。...SparkContext分配TaskSet给CoarseGrainedExecutorBackend，按一定调度策略在executor执行。...在Task处理的过程中，把处理Task的状态发送给DriverEndpoint，Spark根据不同的执行结果来处理。

8372 0

Spark知识体系完整解读

在Driver中将会初始化SparkContext；等待SparkContext初始化完成，最多等待spark.yarn.applicationMaster.waitTries次数（默认为10），...Spark节点的概念一、Spark驱动器是执行程序中的main()方法的进程。它执行用户编写的用来创建SparkContext(初始化)、创建RDD，以及运行RDD的转化操作和行动操作的代码。...在初始化SparkContext的同时，加载sparkConf对象来加载集群的配置，从而创建sparkContext对象。...从源码中可以看到，在启动thriftserver时，调用了spark- daemon.sh文件，该文件源码如左图，加载spark_home下的conf中的文件。 ?...（可以是内存，也可以是磁盘) Spark会使用谱系图来记录这些不同RDD之间的依赖关系，Spark需要用这些信息来按需计算每个RDD，也可以依靠谱系图在持久化的RDD丢失部分数据时用来恢复所丢失的数据

1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用

Spark RDD类源码阅读

Spark的调度系统

Zzreal的大数据笔记-SparkDay03

Spark核心技术原理透视二（Spark运行模式）

慕课网Spark SQL日志分析 - 2.Spark 实战环境搭建

Spark基础

SparkContext初始化过程

独孤九剑-Spark面试80连击(下)

独孤九剑-Spark面试80连击(下)

独孤九剑-Spark面试80连击(下)

【Spark研究】Spark之工作原理

Spark on yarn

数据分析工具篇——spark on yarn模式

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

Spark Scheduler 内部原理剖析

搭建Spark高可用集群

最最简单的~WordCount¬

深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

Spark知识体系完整解读

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐