腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
火花
溢出
与指定的执行器
内存
无关
、
、
我注意到了在使用
spark
2.0运行pyspark应用程序时的奇怪行为。我试图通过将每个执行器分配的
内存
数量增加到原来的8倍来避免这些
溢出
,但基本上没有发现
溢出
量的差别。奇怪的是,我还看到,当这个阶段正在运行时,几乎没有使用任何分配的存储
内存
(如
spark
中的executors选项卡中所报告的那样)。我看到了前面这个问题,这使我相信增加执行器
内存
可能有助于避免
溢出
:。这使我相信,某些硬限制导致
溢出
,而不是
spark
浏览 2
提问于2016-12-27
得票数 4
回答已采纳
1
回答
星星之火不让我数我加入的数据
、
、
当我对任何新加入的dataframes进行计数时,作业会运行很长时间,并将
内存
泄漏到磁盘。这里有逻辑错误吗?// pass
spark
configuration .setMaster(threadMaster) val sc = new SparkContext(conf) /
浏览 2
提问于2015-10-16
得票数 1
回答已采纳
1
回答
使用
spark
和HDFS作为文件存储系统,使用YARN作为资源管理器的优势是什么?
、
、
我正在尝试理解
spark
是否是分析BigData的普通MapReduce方法的替代方法。既然
spark
在使用HDFS作为
spark
的存储系统时,将对数据的操作保存在
内存
中,那么它是否利用了HDFS的分布式存储?例如,假设我在HDFS中存储了100 it的CSV文件,现在我想对其进行分析。如果我将其从HDFS加载到
spark
,它将触发将完整数据加载到
内存
中进行转换,或者它将使用分布式环境来完成其作业,该作业是由在hadoop中编写的MapReduce程序所利用的。如果不是,那么使用
浏览 17
提问于2019-01-27
得票数 0
回答已采纳
1
回答
为什么
Spark
选择在混洗阶段通过网络发送数据,而不是写入HDFS上的某个位置?
、
、
、
据我所知,
spark
试图通过网络将数据发送到另一个节点的
内存
缓冲区中,如果它不能放入
内存
中,就会
溢出
到磁盘,为什么
spark
不能直接写入任何节点都可以读取的HDFS?
浏览 2
提问于2015-09-22
得票数 2
1
回答
在
Spark
中运行并行查询
、
spark
如何处理并发查询?我读过一些关于
spark
和底层RDD的文章,但我不能理解如何处理并发查询?例如,如果我运行一个查询,将数据加载到
内存
中,并且整个可用
内存
被消耗,同时其他人运行一个涉及另一组数据的查询,
spark
如何为这两个查询分配
内存
?另外,如果考虑到优先级,会有什么影响。
浏览 2
提问于2014-11-11
得票数 1
1
回答
spark
如何在幕后读取数据?
、
、
例如,我有点困惑于
spark
是如何从s3读取数据的。假设要从s3读取100 GB的数据,而
spark
集群的总
内存
为30 GB。
spark
是否会在触发操作后读取所有100 GB的数据,并将最大数量的分区存储在
内存
中,并将剩余的分区
溢出
到磁盘?还是只读取可以存储在
内存
中的分区,对其进行处理,然后读取其余数据?
浏览 2
提问于2021-09-19
得票数 2
1
回答
如果RDD不能放入
Spark
的
内存
中,会发生什么?
、
、
、
据我所知,
Spark
试图在
内存
中完成所有计算,除非你调用persist with disk storage选项。但是,如果我们不使用任何persist,那么当RDD不能放入
内存
时,
Spark
会做什么?
Spark
如何在不崩溃的情况下处理它?
浏览 0
提问于2015-09-15
得票数 6
1
回答
在火花中,
spark
.executor.pyspark.memory配置选项的含义是什么?
、
文件说明如下: 除非另有规定,否则在每个执行器中分配给PySpark的
内存
量,在MiB中分配。如果设置了,执行器的PySpark
内存
将被限制在此数量之内。如果没有设置,
Spark
将不会限制Python的
内存
使用,这取决于应用程序避免超过与其他非JVM进程共享的开销
内存
空间。当PySpark在YARN或Kubernetes中运行时,此
内存
将添加到执行器资源请求中。注意:此特性依赖于Python的resource模块;因此,行为和限制是继承的。一种控制分配给每个执行器-
spark
浏览 5
提问于2021-07-04
得票数 6
回答已采纳
1
回答
Spark
如何实现任务间的
内存
公平?
、
、
、
我在看这个关于
spark
memory管理的。 他谈到了他们如何在一个执行器(12:00)中实现不同任务之间的公平性。他提出了任务之间动态分配的想法,并声明如果有更多的任务开始执行,
Spark
会将其他任务的页面
溢出
到磁盘。我之前读过,
Spark
中的任务本质上是线程,而在Java中,我们没有这种能力来管理线程的
内存
并在它们之间建立
内存
公平性。我想知道
Spark
是如何做到这一点的?
浏览 1
提问于2021-06-20
得票数 6
2
回答
增加火花的可用
内存
、
要增加我使用的最大可用
内存
:或者我可以用 .setMaster("local") .set("
spark
.executor.memory", "1g") val sc我想用20g,但我只有8g
内存
可用。磁盘<em
浏览 3
提问于2014-05-10
得票数 2
回答已采纳
1
回答
Spark
中的shuffle write存储在哪里?
根据
Spark
我的问题是,随机写入发生在哪里?在写入时,整个数据是否仅在本地磁盘上进行混洗?或者只在RAM
内存
中写入要混洗的全部数据?或者基于RAM的可用性,它是否将要混洗的数据的一部分写入磁盘,将某些部分写入RAM? 请解释一下
浏览 0
提问于2020-04-17
得票数 1
1
回答
更改"
spark
.memory.storageFraction“对Executors选项卡中的”存储
内存
“列没有影响
、
我正在尝试使用
spark
.memory.storageFraction参数,以减少为缓存节省的
内存
量。但是,将其设置为0.1、0.5甚至0.9并不显示Executors选项卡上的"Storage“列有任何更改:更改
spark
.memory.fraction参数是我在本专栏中看到更改的唯一方法,但这不是减少存储
内存
的方法。我使用
Spark
1.6.1并将
spark
.memory.useLegacyMode设置为false。
浏览 0
提问于2018-05-28
得票数 2
1
回答
纱线火花HBase - ExecutorLostFailure容器因超过记忆限制而被纱线杀死
、
、
、
火花版本: 1.6
spark
-submit --master yarn-client --num-executors 10 --executor-memory 4G--executor-cores 4 错误: ExecutorLostFailure4.5GB的3GB物理
内存
使用限制。考虑提高
spark
.yarn.executor.memoryOverhead。我已经尝试过将
浏览 1
提问于2017-06-14
得票数 0
1
回答
内存
可用时使用磁盘资源的火花
、
、
、
、
当我有足够的
内存
可用时,我试图理解为什么我要使用磁盘空间。以下是可用的总体集群
内存
:下面是剩余的磁盘空间(注意磁盘利用率的下降):我试过查看Yarn管理器,它似乎表明每个节点从都有: 110 GB (已使用)4GB(used.)。如何更有效地使用可用
内存
?
浏览 0
提问于2017-09-27
得票数 3
回答已采纳
2
回答
Apache
Spark
警告“在RowBasedKeyValueBatch上调用spill()”的含义
、
、
我正在使用Apache
Spark
本地模式运行pyspark 2.2.0作业,并看到以下警告: WARN RowBasedKeyValueBatch: Calling spill() on RowBasedKeyValueBatch
浏览 21
提问于2017-10-24
得票数 16
1
回答
Spark
如何处理超出其容量的
内存
假设我的
Spark
集群有100G
内存
,在
Spark
计算过程中,会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下,
Spark
会将部分数据存储在磁盘上,还是只会使用OOM
浏览 235
提问于2020-07-14
得票数 0
回答已采纳
1
回答
在
Spark
的MLlib中使用TFIDF生成过程中的
内存
不足异常
、
、
、
在使用MLlib的朴素Baye分类实现创建用于文档分类的TFIDF向量时,我遇到了
内存
溢出
问题。 在收集所有术语的idfs时,会出现
内存
溢出
和GC问题。为了给出一个规模概念,我从HBase中读取了大约61.5万个(约4GB的文本数据)小文档,并运行了带有8核和6GB执行器
内存
的
spark
程序。我已经尝试过增加并行级别和洗牌
内存
分数,但没有效果。
浏览 1
提问于2014-09-18
得票数 4
回答已采纳
2
回答
Apache
Spark
溢出
到磁盘
、
、
free: 682.0 MB)我的理解是,它是否有空闲的
内存
,实际上大部分
内存
都是空闲的;由:但是它正在
溢出
到磁盘上
浏览 1
提问于2015-04-11
得票数 3
1
回答
sparkSQL的数据是否会超过
内存
?
这个尺寸将超过我的
内存
大小。我的星星团中的所有节点都有128 G
内存
,这是不够的。 因此,我想知道,如果数据太大,不适合在
内存
中会发生什么?会不会暂时把它换到磁盘上?
浏览 2
提问于2016-04-08
得票数 1
回答已采纳
2
回答
使用apache
spark
加载一个非常大的csv文件
、
我需要使用Apache
Spark
加载巨大的csv文件。 到目前为止,我使用Apache
Spark
的read方法加载了不同的文件。我没有遇到任何问题。然而,文件大小并不大,大约是100兆字节。现在我收到了一些可伸缩性问题,比如:“如果文件不适合驱动程序的
内存
,会发生什么?”
spark
.read方法是如何工作的?是否将csv文件加载到驱动程序(主节点)的
内存
中?示例代码: df =
spark
.read.format("csv").option("head
浏览 41
提问于2019-04-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
java内存溢出排查
Facebook 开源内存溢出杀手 oomd
内存溢出错误:java堆空间
强如 Disruptor 也发生内存溢出?
MOD玩家首选内存:扎达克SPARK RGB内存
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券