腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2155)
视频
沙龙
2
回答
Spark
:
当
groupBy
被
调
用时
,
重新
分区
到
一个
节点
的
数据
帧
是否
会
经历
一次
洗牌
?
scala
、
apache-spark
、
hadoop
、
apache-spark-sql
、
bigdata
假设我有一些
数据
都在同
一个
分区
上(我之前在
数据
帧
上执行了
一次
.coalesce(1) )。现在,我想对
数据
进行分组并对其执行聚合。如果我在
数据
帧
上使用.
groupBy
,这些组
是否
会被放在不同
的
节点
上? 如果这是真的,我想避免这种情况,因为我希望在不进行太多混洗
的
情况下对组执行这些计算。
浏览 14
提问于2019-03-04
得票数 1
1
回答
火花OOM错误解释与消除
apache-spark
数据
集
的
大小是100 GB,让我们假设这个
数据
,
当
通过
spark
读取时,
被
划分为10个
分区
,每个
分区
10 GB。很明显,100 GB
的
文件不能
一次
放入32 GB
的
RAM中。因此,
分区
必须加载到内存中,并以迭代
的
方式处理。所以我假设如下。 第
一次
迭代,两个
分区
,每个10 on
被
加载到每个
数据
<e
浏览 1
提问于2020-08-05
得票数 0
1
回答
将
数据
帧
从
spark
集群写入cassandra集群:
分区
和性能
调
优
scala
、
apache-spark
、
cassandra
、
datastax-java-driver
、
spark-cassandra-connector
Cloud - Cassandra集群,多个DC我该如何
调
优呢?
重新
划分是罪魁祸首吗?PS:我一开始
的
理解是:对于
一个
有20M行
的
负载,“
重新
分区</
浏览 25
提问于2020-06-08
得票数 1
回答已采纳
2
回答
200个默认
分区
的
spark
.sql.shuffle.partitions难题
apache-spark
在许多帖子中,由于一些关于
洗牌
,
分区
,due to JOIN,AGGR,等等
的
问题,有这样
的
声明-如下面以某种形式显示
的
:我们
的
意思是,如果我们将DF
的
分区
设置为765,例如,则处理发生在
浏览 630
提问于2018-08-21
得票数 9
回答已采纳
1
回答
synapse管道中
的
DF-Executor-OutOfMemoryError
azure
、
out-of-memory
、
azure-data-factory
、
azure-data-factory-2
、
azure-synapse
我有
一个
来自ravenDB
的
json,它不是有效
的
json,因为它有重复
的
列。因此,我
的
第一步是清理json,如果有重复
的
文件,为每个文件创建单独
的
json。我可以在示例文件中这样做,它运行成功,然后我尝试
一个
12MB
的
文件,它也可以工作。但是当我尝试
一个
10 DB大小
的
完整
数据
库备份文件时,它给出了错误。对于第
一个
文件,当我试图在Synapse DWH中加载它时
浏览 12
提问于2021-11-09
得票数 1
2
回答
什么是
洗牌
分区
?
apache-spark
、
pyspark
、
partitioning
从更专业
的
角度来说,什么是
spark
.sql.shuffle.partitions?我已经看到了像这样
的
答案,它说:“配置用于联接或聚合
的
数据
洗牌
时使用
的
分区
数量。”谢谢!
浏览 0
提问于2019-09-05
得票数 2
回答已采纳
1
回答
转换后保留
Spark
数据
帧
的
分区
数量
apache-spark
、
apache-spark-sql
、
partitioning
、
data-partitioning
我在代码中发现了
一个
bug,其中
一个
数据
帧
被
分割成比预期更多
的
分区
(超过700个),当我试图将它们
重新
分区
到
只有48个时,这会导致太多
的
随机操作。我不能在这里使用coalesce(),因为在进行
重新
分区
之前,我希望首先有更少
的
分区
。 我正在寻找减少
分区
数量
的
方法。假设我有
一个
浏览 2
提问于2017-09-13
得票数 1
3
回答
如何避免在唯一键上加入DataFrames时
的
洗牌
?
apache-spark
、
apache-spark-sql
我有两个DataFrames A和B A.join(B, Seq("id"))完成这一任务
的
最佳方法是什么?
浏览 2
提问于2017-05-07
得票数 26
1
回答
理解星火结构流并行性
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我是星火世界
的
新手,在一些概念上苦苦挣扎。 .format("console")query.awaitTermination(); 我已经看到,并行性与
数据
分区
的
数量有关,
数据
集
的
分区
数
浏览 3
提问于2018-01-13
得票数 8
回答已采纳
1
回答
在使用Pyspark和Python处理CSV文件时,过度使用容量内存
excel
、
csv
、
memory
、
pyspark
、
apache-spark-sql
我不知道我应该共享代码
的
哪一部分,因为我所做
的
基本如下(我将分享
一个
简单
的
代码算法,以供参考): 任务:我需要搜索文件A,然后将文件A中
的
值与文件B中
的
列值相匹配(它有超过100个CSV文件,每个文件包含超过100万行CSV),然后在匹配之后,将结果合并到
一个
csv中。values.Concatenate 提取文件A
的
列值,然后将其放入值列表中。加载文件B,然后使用.isin与文件A匹配,将结果放入单个csv文件。。second =
spark
浏览 7
提问于2022-08-18
得票数 0
1
回答
蜂巢和星火窗口功能
的
数据
洗牌
python
、
hadoop
、
apache-spark
、
hive
、
pyspark
当
对同一
节点
上
的
数据
使用Hive窗口函数时,会发生
数据
洗牌
吗?特别是在下面的示例中,在使用窗口函数
数据
之前,已经由' city‘和
Spark
()函数进行了
重新
分区
,这应该确保城市'A’
的
所有
数据
都在同
一个
节点
上共同本地化(假设
一个
城市
的
数据
可以容纳
到
<e
浏览 2
提问于2016-04-19
得票数 7
回答已采纳
1
回答
PySpark -在读取拼花后优化
分区
数
apache-spark
、
pyspark
、
partitioning
、
parquet
在
一个
由year和month分隔
的
拼花
数据
湖中,
spark
.default.parallelism设置为4,假设我想创建
一个
DataFrame,由2017年以来
的
11~12个月,以及2018年
的
1~3个月", "B.parquet/_YEAR={2018}/_MONTH={1,2,3}"
浏览 1
提问于2018-06-05
得票数 2
回答已采纳
1
回答
我如何有效地将
一个
大
的
rdd加入
到
一个
非常大
的
rdd中呢?
join
、
apache-spark
、
rdd
一个
RDD在5-1000万个条目之间,另
一个
RDD在5亿
到
7.5亿个条目之间。在某种程度上,我必须使用公共密钥连接这两个rdd。这导致rddB中
的
许多项在网络上
被
洗牌
。同样,一些rddA也在网络上
被
洗牌
。在这种情况下,rddA太“大”,不能用作广播变量,但似乎BroadcastHashJoin
会
更有效。更新7/14 我
的
性能问题似乎根植于
重新
分区
。通常,从HDFS读取<e
浏览 4
提问于2015-07-13
得票数 11
回答已采纳
1
回答
Alter用于在Hive外部表上添加需要很长时间
的
分区
apache-spark
、
amazon-s3
、
pyspark
、
hive
、
amazon-emr
我正试图通过带有6个
节点
的
EMR集群(每个
节点
上有8个核心和56GB内存)来执行火花作业。
Spark
作业对Hive表上
的
分区
进行增量加载,最后执行刷新表以更新元
数据
。刷新命令需要3
到
6个小时才能完成,这太长了。 在2列上
分区
。(ex:s3a//bucket-name&
浏览 0
提问于2020-10-23
得票数 0
1
回答
触发2.4
到
Elasticsearch :防止Dataproc
节点
退役期间
的
数据
丢失?
apache-spark
、
elasticsearch
、
google-cloud-dataproc
、
elasticsearch-hadoop
我
的
技术任务是将
数据
从GCS (Google )同步到我们
的
Elasticsearch集群。例如,当我保存到GCS或HDFS时,不存在这个问题。如何使此任务具有弹性,即使
节点
已退役?堆栈痕迹<em
浏览 4
提问于2020-01-21
得票数 3
20
回答
火花-
重新
分区
()与coalesce()
apache-spark
、
distributed-computing
、
rdd
根据学习火花 请记住,
重新
分区
您
的
数据
是
一个
相当昂贵
的
操作。
Spark
还有
一个
名为repartition()
的
优化版本coalesce(),它允许避免
数据
移动,但前提是要减少RDD
分区
的
数量。我发现
的
一个
不同之处是,使用repartition(),
分区
数量可以增加/减少,而使用coalesce(),
分区</e
浏览 6
提问于2015-07-24
得票数 391
回答已采纳
1
回答
火花
洗牌
写得太慢了
apache-spark
、
apache-spark-sql
为什么火花
洗牌
阶段对于1.6MB
洗牌
写入速度这么慢,以及2.4MB input?.Also为什么
洗牌
只发生在
一个
执行器上?我正在运行
一个
每个8核
的
3
节点
集群。
浏览 0
提问于2018-06-11
得票数 3
1
回答
独特
的
写入正在使输出大小增加近10倍。
apache-spark
、
apache-spark-sql
ON array_contains(input_table_1.membership, input_table_2.membership_id)使用编写
的
dataset正在S3中生成约1.1TiB
的
数据
,记录约为7000亿条。我们发现有重复
的
,并使用dataframe.distinct.write.parquet("s3path")删除重复
的
。记录计数已减少
到
大约2000亿行
的
前
一个
总
浏览 1
提问于2022-07-15
得票数 1
回答已采纳
1
回答
跳过
的
阶段对
Spark
作业有性能影响吗?
scala
、
apache-spark
、
spark-streaming
、
spark-structured-streaming
、
spark-streaming-kafka
我正在运行
一个
spark
结构
的
流作业,其中包括创建
一个
空
数据
帧
,使用每个微批处理更新它,如下所示。每次微批处理执行时,阶段数增加4。为了避免
重新
计算,我在循环内
的
每个更新之后将更新后
的
StaticDF持久化
到
内存中。这有助于跳过每个新
的
微批次创建
的
那些额外
的
阶段。我
的
问题是- 1)即使总
的
完成阶段保持不变,增加
的</em
浏览 5
提问于2020-04-14
得票数 0
4
回答
什么时候应该在火花编程中使用groupByKey API?
apache-spark
GroupByKey受到
洗牌
的
困扰,data.And GroupByKey功能可以通过使用combineByKey或reduceByKey.So来实现,什么时候应该使用这个API呢?有用例吗?
浏览 1
提问于2015-06-14
得票数 4
回答已采纳
点击加载更多
相关
资讯
Spark关键性能考量
大数据之谜Spark基础篇,核心RDD特征分析讲解
Spark地基之RDD
Kafka消费者主流程概况
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券