开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

spark历史服务器不显示RDD，即使它是持久化的

Spark历史服务器是Spark提供的一个Web界面，用于监控和管理Spark应用程序的执行情况。它可以显示Spark应用程序的执行历史记录、任务进度、资源使用情况等信息。

在Spark历史服务器中，RDD（弹性分布式数据集）是Spark的核心数据结构之一，用于在集群中分布和处理数据。RDD可以通过持久化来提高计算性能，即将RDD的数据存储在内存或磁盘上，以便在需要时快速访问。

然而，如果Spark历史服务器不显示RDD，即使它是持久化的，可能有以下几个原因：

配置问题：请确保Spark历史服务器的配置正确，并且已启用对RDD的持久化支持。可以通过检查Spark配置文件中的相关参数来确认。
日志级别设置：检查Spark历史服务器的日志级别设置，确保日志级别足够详细，以便显示RDD的相关信息。
数据丢失：如果RDD在持久化期间发生数据丢失，可能导致Spark历史服务器无法显示该RDD。可以通过检查Spark应用程序的日志或事件记录来查找数据丢失的原因。
版本兼容性：确保Spark历史服务器和Spark应用程序之间的版本兼容性。如果版本不匹配，可能导致RDD无法正确显示。

针对以上问题，可以尝试以下解决方法：

检查并修复配置问题：查看Spark历史服务器和Spark应用程序的配置文件，确保相关参数正确设置，并启用了对RDD的持久化支持。
调整日志级别：将Spark历史服务器的日志级别设置为更详细的级别，以便显示RDD的相关信息。可以通过修改日志配置文件或命令行参数来实现。
检查数据丢失原因：检查Spark应用程序的日志或事件记录，查找可能导致RDD数据丢失的原因，并采取相应的措施修复数据丢失问题。

如果以上方法无法解决问题，建议参考腾讯云的Spark相关文档和技术支持，获取更详细的帮助和解决方案。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark服务：https://cloud.tencent.com/product/spark

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

11月大数据面试题复习

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间

01

大数据开发工程师面试题以及答案整理（二）

Redis性能优化，单机增加CPU核数是否会提高性能 1、根据业务需要选择合适的数据类型，并为不同的应用场景设置相应的紧凑存储参数。 2、当业务场景不需要数据持久化时，关闭所有的持久化方式可以获得最佳的性能以及最大的内存使用量。 3、如果需要使用持久化，根据是否可以容忍重启丢失部分数据在快照方式与语句追加方式之间选择其一，不要使用虚拟内存以及diskstore方式。 4、不要让你的Redis所在机器物理内存使用超过实际内存总量的3/5。我们知道Redis是用”单线程-多路复用io模型”来实现高性能的内存数据服务的，这种机制避免了使用锁，但是同时这种机制在进行sunion之类的比较耗时的命令时会使redis的并发下降。因为是单一线程，所以同一时刻只有一个操作在进行，所以，耗时的命令会导致并发的下降，不只是读并发，写并发也会下降。而单一线程也只能用到一个cpu核心，所以可以在同一个多核的服务器中，可以启动多个实例，组成master-master或者master-slave的形式，耗时的读命令可以完全在slave进行。

01

2021年大数据Spark（十七）：Spark Core的RDD持久化

在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。

03

spark-submit介绍

spark-submit脚本通常位于/usr/local/spark/bin目录下，可以用which spark-submit来查看它所在的位置，spark-submit用来启动集群中的应用，它使用统一的提交接口支持各种类型的集群服务器。为了将应用发布到集群中，通常会将应用打成.jar包，在运行spark-submit时将jar包当做参数提交。

01

Spark 以及 spark streaming 核心原理及实践

本文主要介绍了如何基于Spark、Hadoop、HBase、Hive、Spark Streaming和Kafka等分布式计算技术，结合Java、Scala、Python和R等编程语言，实现大数据平台搭建、数据处理和机器学习等应用。包括Spark生态、原理、架构、编程范式和调优技巧等方面的内容。

04

Spark2.3.0 持久化

Spark 中最重要的功能之一是在操作之间将数据集持久化(缓存)在内存中。当你持久化一个 RDD 时，每个节点都会保存 RDD 的任意分区，RDD在内存中计算时该数据集（或从其派生的数据集）上的其他 Action 可以重用它。这样可以使后面的 Action 操作执行的更快（通常超过10倍）。缓存是迭代算法和快速交互的关键工具。

03

Spark笔记7-RDD持久化和分区

有时候需要访问同一组值，不做持久化，会重复生成，计算机代价和开销很大。持久化作用：

01

Spark性能优化指南——基础篇

原文：https://tech.meituan.com/spark-tuning-basic.html

02

【技术博客】Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合

06

SparkStreaming学习笔记

（*）Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行流数据处理。最后，处理后的数据可以被推送到文件系统，数据库和实时仪表板。而且，您还可以在数据流上应用Spark提供的机器学习和图处理算法。

02

Java Spark RDD编程:常见操作、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象，全称弹性分布式数据集（就是分布式的元素集合）。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行 RDD在抽象上来说是一种不可变的分布式数据集合(外部文本文件是在创建RDD时自动被分为多个分区)。它是被分为多个分区，每个分区分布在集群的不同节点（自动分发）

03

Hadoop与Spark等大数据框架介绍[通俗易懂]

海量数据的存储问题很早就已经出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别。很早以前，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。

01

Spark面试题汇总及答案（推荐收藏）

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

02

Spark面试题汇总及答案（推荐收藏）

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

03

万字详解 Spark开发调优（建议收藏）

在大数据计算领域，Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

01

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

03

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

02

万字详解 Spark Core 开发调优（建议收藏）

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优相关的文章，今天继续和大家分享一篇关于 Spark 开发调优的文章，干货文章，建议收藏！

01

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，「Apache Spark」以其独特的优势脱颖而出。

04

大数据入门：Spark持久化存储策略

持久化存储是Spark非常重要的一个特性，通过持久化存储，提升Spark应用性能，以更好地满足实际需求。而Spark的持久化存储，根据不同的需求现状，可以选择不同的策略方案。今天的大数据入门分享，我们就来具体讲讲Spark持久化存储策略。

02

【万字长文】Spark最全知识点整理（内含脑图）

Spark有以下四种部署方式，分别是：Local，Standalone，Yarn，Mesos

01

RDD持久化

1.RDD持久化原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。 2.巧妙使用RDD持久化，甚至在某些场景下，可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说，RD

04

【最全的大数据面试系列】Spark面试题大全（二）

通常读取数据 PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL 或 NODE_LOCAL 方式读取。其中 PROCESS_LOCAL 还和cache 有关，如果 RDD 经常用的话将该 RDD cache 到内存中，注意，由于cache 是 lazy 的，所以必须通过一个 action 的触发，才能真正的将该 RDDcache 到内存中。

02

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，「Apache Spark」以其独特的优势脱颖而出。

04

Spark Core 整体介绍

–num-executors: 执行器个数,执行器数可以为节点个数，也可以为总核数(单节点核数*节点数),也可以是介于俩者之间(用于调优) –executor-cores: 执行器核数, 核数可以1，也可以为单节点的内核书，也可以是介于俩者之间(用于调优) –executor-memory: 执行器内存, 可以为最小内存数(单节点内存总数/单节点核数),也可以为最大内存数(单节点内存总数),也可以是介于俩者之间(用于调优)

01

Spark RDD编程指南

在高层次上，每个 Spark 应用程序都包含一个驱动程序，该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD)，它是跨集群节点分区的元素集合，可以并行操作。 RDD 是通过从 Hadoop 文件系统（或任何其他 Hadoop 支持的文件系统）中的文件或驱动程序中现有的 Scala 集合开始并对其进行转换来创建的。用户还可以要求 Spark 将 RDD 持久化到内存中，以便在并行操作中有效地重用它。最后，RDD 会自动从节点故障中恢复。

01

RDD持久化原理

Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD读取一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。

01

大数据开发面试之26个Spark高频考点

大家好，我是梦想家Alex ~ 今天为大家带来大数据开发面试中，关于 Spark 的 28 个高频考点。

03

干货分享丨携程国际业务动态实时标签处理平台实践

Weiyi，携程资深数据开发，关注大数据相关技术，对大数据实时计算、流批一体等方面有浓厚兴趣；

01

Spark 性能调优之开发调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

4.3 RDD操作

4.3 RDD操作 RDD提供了一个抽象的分布式数据架构，我们不必担心底层数据的分布式特性，而应用逻辑可以表达为一系列转换处理。通常应用逻辑是以一系列转换（Transformation）和执行（Action）来表达的，前者在RDD之间指定处理的相互依赖关系，后者指定输出的形式。其中： □转换：是指该操作从已经存在的数据集上创建一个新的数据集，是数据集的逻辑操作，并没有真正计算。 □执行：是指该方法提交一个与前一个Action之间的所有Transformation组成的Job进行计算，Spark会根据A

07

Spark中的持久化

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具。

02

Spark 理论基石 —— RDD

RDD，学名可伸缩的分布式数据集（Resilient Distributed Dataset）。是一种对数据集形态的抽象，基于此抽象，使用者可以在集群中执行一系列计算，而不用将中间结果落盘。而这正是之前 MR 抽象的一个重要痛点，每一个步骤都需要落盘，使得不必要的开销很高。

02

Spark性能调优02-代码调优

代码调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。

02

Spark学习笔记

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。

01

Spark资源调优

Spark 作者：章华燕编辑：龚赛概述 1 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效

07

Druid实时OLAP数据分析存储系统极简入门

Druid 是一个开源的，分布式的，列存储的，适用于实时数据分析的存储系统，能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。

02

【大数据哔哔集20210117】Spark面试题灵魂40问

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor

02

Spark性能调优06-JVM调优

再JVM虚拟机中，当创建的对象的数量很多时，Eden 和 Survior1 区域会很快的满溢，就需要进行频繁地 Minor GC，这样会导致有一些生命周期较短的对象迅速长到15岁并放入到老年代中，导致老年代中存放大量的短生命周期的对象(正常请况下，老年代应该存放的是数量比较少并且会长期使用的对象，比如数据库连接池)，当老年代满溢后，会进行Full GC，Full GC是开启一个很消耗性能和时间的线程，而且不管 Minor GC 还是 Full GC 都会导致 JVM 的工作线程停止，因为 Scala 也是基于 JVM 的编程语言，所以运行 Spark 程序和运行 Java 程序在 JVM 中的内存分配情况是相同的。

01

Spark RDD中的持久化

持久化在早期被称作缓存（cache），但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中，但一般都会在内存不够时用磁盘顶上去（比操作系统默认的磁盘交换性能高很多）。当然，也可以选择不使用内存，而是仅仅保存到磁盘中。所以，现在Spark使用持久化（persistence）这一更广泛的名称。如果一个RDD不止一次被用到，那么就可以持久化它，这样可以大幅提升程序的性能，甚至达10倍以上。默认情况下，RDD只使用一次，用完即扔，再次使用时需要重新计算得到，而持久化操作避免了这里的

03

Spark系列(四)RDD编程

Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集，对数据的操作主要涉及RDD的创建、转换以及行动等操作，在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法，本小节将介绍RDD编程之转换（Transform）和行动（Action）两种操作。

03

《从0到1学习spark》--手撕parallelize源码

之前小强介绍了RDD是什么以及RDD的用法，如果还有疑惑的同学可以查看《从0到1学习spark》-- RDD，今天小强将介绍一下RDD的使用和源码解析。

02

干货 | 携程国际业务动态实时标签处理平台实践

Weiyi，携程资深数据开发，关注大数据相关技术，对大数据实时计算、流批一体等方面有浓厚兴趣；

02

Spark系列课程-00xxSpark RDD持久化

我们这节课讲一下RDD的持久化 RDD的持久化这段代码我们上午已经看过了，有瑕疵大家看出来了吗？有什么瑕疵啊? 大家是否还记得我在第二节课的时候跟大家说，RDD实际是不存数据的？ image.

08

揭秘Spark应用性能调优

我们知道Spark 可以通过 RDD 实现计算链的原理：转换函数包含在 RDD 链中，但仅在调用 action 函数后才会触发实际的求值过程，执行分布式运算，返回运算结果。要是在同一 RDD 上重复调用 action 会发生什么？

02

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day14】——Spark1

为什么要进行持久化？ spark所有复杂一点的算法都会有persist身影，spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache优化，就需要重头做。以下场景会使用persist 1）某个步骤计算非常耗时，需要进行persist持久化 2）计算链条非常长，重新恢复要算很多步骤，很好使，persist 3）checkpoint所在的rdd要持久化persist。checkpoint前，要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。 4）shuffle之后要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大 5）shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

04

原荐 Spark框架核心概念

Spark框架核心概念首先介绍Spark中的核心名词概念，然后再逐一详细说明。 RDD：弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处理。有容错机制，通过RDD之间的依赖关系来恢复数据。依赖关系：RDD的依赖关系是通过各种Transformation（变换）来得到的。父RDD和子RDD之间的依赖关系分两种：①窄依赖②宽依赖。 ①窄依赖：父RDD的分区和子RDD的分区关系是：一对一。窄依赖不会发生Shuffle，执行效率高，spark框架底层

08

【Spark研究】Spark编程指南(Python版)

Spark编程指南译者说在前面：最近在学习Spark相关的知识，在网上没有找到比较详细的中文教程，只找到了官网的教程。出于自己学习同时也造福其他初学者的目的，把这篇指南翻译成了中文，笔者水平有限，文章中难免有许多谬误，请高手不吝赐教。本文翻译自Spark Programming Guide,由于笔者比较喜欢Python，在日常中使用也比较多，所以只翻译了Python部分，不过Java和Scala大同小异。概述从高层次上来看，每一个Spark应用都包含一个驱动程序，用于执行用户的main函数以及在集群

05

Spark程序开发调优（前奏）

Spark 性能优化的第一步，就是要在开发 Spark 作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些 Spark 基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的 Spark 作业中。

01

图解大数据 | 流式数据处理-Spark Streaming

教程地址：http://www.showmeai.tech/tutorials/84

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭