Spark:当groupBy被调用时，重新分区到一个节点的数据帧是否会经历一次洗牌？

文章/答案/技术大牛

发布

2回答

scala、apache-spark、hadoop、apache-spark-sql、bigdata

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了一次.coalesce(1) )。现在，我想对数据进行分组并对其执行聚合。如果我在数据帧上使用.groupBy，这些组是否会被放在不同的节点上？如果这是真的，我想避免这种情况，因为我希望在不进行太多混洗的情况下对组执行这些计算。

浏览 14提问于2019-03-04得票数 1

1回答

火花OOM错误解释与消除

apache-spark

数据集的大小是100 GB，让我们假设这个数据，当通过spark读取时，被划分为10个分区，每个分区10 GB。很明显，100 GB的文件不能一次放入32 GB的RAM中。因此，分区必须加载到内存中，并以迭代的方式处理。所以我假设如下。第一次迭代，两个分区，每个10 on被加载到每个数据<e

浏览 1提问于2020-08-05得票数 0

1回答

将数据帧从spark集群写入cassandra集群:分区和性能调优

scala、apache-spark、cassandra、datastax-java-driver、spark-cassandra-connector

Cloud - Cassandra集群，多个DC我该如何调优呢？重新划分是罪魁祸首吗？PS:我一开始的理解是:对于一个有20M行的负载，“重新分区</

浏览 25提问于2020-06-08得票数 1

回答已采纳

2回答

200个默认分区的spark.sql.shuffle.partitions难题

apache-spark

在许多帖子中，由于一些关于洗牌，分区，due to JOIN，AGGR，等等的问题，有这样的声明-如下面以某种形式显示的：我们的意思是，如果我们将DF的分区设置为765，例如，则处理发生在

浏览 630提问于2018-08-21得票数 9

回答已采纳

1回答

synapse管道中的DF-Executor-OutOfMemoryError

azure、out-of-memory、azure-data-factory、azure-data-factory-2、azure-synapse

我有一个来自ravenDB的json，它不是有效的json，因为它有重复的列。因此，我的第一步是清理json，如果有重复的文件，为每个文件创建单独的json。我可以在示例文件中这样做，它运行成功，然后我尝试一个12MB的文件，它也可以工作。但是当我尝试一个10 DB大小的完整数据库备份文件时，它给出了错误。对于第一个文件，当我试图在Synapse DWH中加载它时

浏览 12提问于2021-11-09得票数 1

2回答

什么是洗牌分区？

apache-spark、pyspark、partitioning

从更专业的角度来说，什么是spark.sql.shuffle.partitions？我已经看到了像这样的答案，它说：“配置用于联接或聚合的数据洗牌时使用的分区数量。”谢谢!

浏览 0提问于2019-09-05得票数 2

回答已采纳

1回答

转换后保留Spark数据帧的分区数量

apache-spark、apache-spark-sql、partitioning、data-partitioning

我在代码中发现了一个bug，其中一个数据帧被分割成比预期更多的分区(超过700个)，当我试图将它们重新分区到只有48个时，这会导致太多的随机操作。我不能在这里使用coalesce()，因为在进行重新分区之前，我希望首先有更少的分区。我正在寻找减少分区数量的方法。假设我有一个

浏览 2提问于2017-09-13得票数 1

3回答

如何避免在唯一键上加入DataFrames时的洗牌？

apache-spark、apache-spark-sql

我有两个DataFrames A和B A.join(B, Seq("id"))完成这一任务的最佳方法是什么？

浏览 2提问于2017-05-07得票数 26

1回答

理解星火结构流并行性

apache-spark、apache-spark-sql、spark-structured-streaming

我是星火世界的新手，在一些概念上苦苦挣扎。 .format("console")query.awaitTermination(); 我已经看到，并行性与数据分区的数量有关，数据集的分区数

浏览 3提问于2018-01-13得票数 8

回答已采纳

1回答

在使用Pyspark和Python处理CSV文件时，过度使用容量内存

excel、csv、memory、pyspark、apache-spark-sql

我不知道我应该共享代码的哪一部分，因为我所做的基本如下(我将分享一个简单的代码算法，以供参考)：任务:我需要搜索文件A，然后将文件A中的值与文件B中的列值相匹配(它有超过100个CSV文件，每个文件包含超过100万行CSV)，然后在匹配之后，将结果合并到一个csv中。values.Concatenate 提取文件A的列值，然后将其放入值列表中。加载文件B，然后使用.isin与文件A匹配，将结果放入单个csv文件。。second = spark

浏览 7提问于2022-08-18得票数 0

1回答

蜂巢和星火窗口功能的数据洗牌

python、hadoop、apache-spark、hive、pyspark

当对同一节点上的数据使用Hive窗口函数时，会发生数据洗牌吗？特别是在下面的示例中，在使用窗口函数数据之前，已经由' city‘和Spark ()函数进行了重新分区，这应该确保城市'A’的所有数据都在同一个节点上共同本地化(假设一个城市的数据可以容纳到<e

浏览 2提问于2016-04-19得票数 7

回答已采纳

1回答

PySpark -在读取拼花后优化分区数

apache-spark、pyspark、partitioning、parquet

在一个由year和month分隔的拼花数据湖中，spark.default.parallelism设置为4，假设我想创建一个DataFrame，由2017年以来的11~12个月，以及2018年的1~3个月", "B.parquet/_YEAR={2018}/_MONTH={1,2,3}"

浏览 1提问于2018-06-05得票数 2

回答已采纳

1回答

我如何有效地将一个大的rdd加入到一个非常大的rdd中呢？

join、apache-spark、rdd

一个RDD在5-1000万个条目之间，另一个RDD在5亿到7.5亿个条目之间。在某种程度上，我必须使用公共密钥连接这两个rdd。这导致rddB中的许多项在网络上被洗牌。同样，一些rddA也在网络上被洗牌。在这种情况下，rddA太“大”，不能用作广播变量，但似乎BroadcastHashJoin会更有效。更新7/14 我的性能问题似乎根植于重新分区。通常，从HDFS读取<e

浏览 4提问于2015-07-13得票数 11

回答已采纳

1回答

Alter用于在Hive外部表上添加需要很长时间的分区

apache-spark、amazon-s3、pyspark、hive、amazon-emr

我正试图通过带有6个节点的EMR集群(每个节点上有8个核心和56GB内存)来执行火花作业。Spark作业对Hive表上的分区进行增量加载，最后执行刷新表以更新元数据。刷新命令需要3到6个小时才能完成，这太长了。在2列上分区。(ex：s3a//bucket-name&

浏览 0提问于2020-10-23得票数 0

1回答

触发2.4到Elasticsearch :防止Dataproc节点退役期间的数据丢失？

apache-spark、elasticsearch、google-cloud-dataproc、elasticsearch-hadoop

我的技术任务是将数据从GCS (Google )同步到我们的Elasticsearch集群。例如，当我保存到GCS或HDFS时，不存在这个问题。如何使此任务具有弹性，即使节点已退役？堆栈痕迹<em

浏览 4提问于2020-01-21得票数 3

20回答

火花-重新分区()与coalesce()

apache-spark、distributed-computing、rdd

根据学习火花请记住，重新分区您的数据是一个相当昂贵的操作。Spark还有一个名为repartition()的优化版本coalesce()，它允许避免数据移动，但前提是要减少RDD分区的数量。我发现的一个不同之处是，使用repartition()，分区数量可以增加/减少，而使用coalesce()，分区</e

浏览 6提问于2015-07-24得票数 391

回答已采纳

1回答

火花洗牌写得太慢了

apache-spark、apache-spark-sql

为什么火花洗牌阶段对于1.6MB洗牌写入速度这么慢，以及2.4MB input?.Also为什么洗牌只发生在一个执行器上?我正在运行一个每个8核的3节点集群。

浏览 0提问于2018-06-11得票数 3

1回答

独特的写入正在使输出大小增加近10倍。

apache-spark、apache-spark-sql

ON array_contains(input_table_1.membership, input_table_2.membership_id)使用编写的dataset正在S3中生成约1.1TiB的数据，记录约为7000亿条。我们发现有重复的，并使用dataframe.distinct.write.parquet("s3path")删除重复的。记录计数已减少到大约2000亿行的前一个总

浏览 1提问于2022-07-15得票数 1

回答已采纳

1回答

跳过的阶段对Spark作业有性能影响吗？

scala、apache-spark、spark-streaming、spark-structured-streaming、spark-streaming-kafka

我正在运行一个spark结构的流作业，其中包括创建一个空数据帧，使用每个微批处理更新它，如下所示。每次微批处理执行时，阶段数增加4。为了避免重新计算，我在循环内的每个更新之后将更新后的StaticDF持久化到内存中。这有助于跳过每个新的微批次创建的那些额外的阶段。我的问题是- 1)即使总的完成阶段保持不变，增加的</em

浏览 5提问于2020-04-14得票数 0

4回答

什么时候应该在火花编程中使用groupByKey API？

apache-spark

GroupByKey受到洗牌的困扰，data.And GroupByKey功能可以通过使用combineByKey或reduceByKey.So来实现，什么时候应该使用这个API呢？有用例吗？

浏览 1提问于2015-06-14得票数 4

回答已采纳

点击加载更多