跨分区的spark中的Reduce函数

、、

我已经用python编写了一个使用spark的示例函数。函数如下所示os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.4" **rdd3=rdd1.reduce(lambda x,y:x+1)*

浏览 7提问于2017-07-20得票数 1

回答已采纳

1回答

Spark Shuffle之所以发生，是因为Spark需要跨阶段传输数据

Spark文档:在spark中，数据通常不会跨分区分布到特定操作所需的位置。在计算期间，单个任务将在单个分区上操作-因此，要组织单个reduceByKey reduce任务执行的所有数据，Spark需要执行all- to -all操作。它必须从所有分区中读取以找到所有键的所有值，然后将跨分区的值聚合在一起，以计

浏览 1提问于2020-06-04得票数 0

1回答

Spark vs Hadoop用这个简单的例子？

、、

在谷歌上，Spark和Hadoop MapReduce之间的关键区别都体现在处理方法上: Spark可以在内存中完成，而Hadoop MapReduce必须从磁盘读取和写入。：在Spark的情况下，一旦行被“”分割，输出将存储在内存中。与函数map和reduce类似。我相信当处理跨分区发生时也是如此。在MapReduce的情况下，每个中间结果(像split/map&#x

浏览 27提问于2019-05-12得票数 0

回答已采纳

1回答

在混洗之前，是否通过在每个分区上运行ReduceByKey函数来优化Spark reduce函数？

、

我正在查看我的spark任务的一些输入和输出指标。这基本上是一个count by key，末尾有一个saveAsHadoop，用于将数据存储到DynamoDB中。一个经典的- map-reduce。看看一些指标，似乎在映射之后，spark盲目地混洗数据，然后将reduce函数应用于每个混洗的部分。如果reduce函数主要减少输出，那么最好在混洗之前对每个

浏览 0提问于2016-12-16得票数 0

2回答

如何使用RDD在分区内排序(并避免跨分区排序)？

Hadoop MapReduce洗牌的默认行为是在分区内对混叠键进行排序，而不是跨分区排序(使键跨分区排序的是总顺序)。我会问如何使用Spark (分区内排序，但不是跨分区排序)实现相同的目标。RDD的sortByKey方法是进行全排序 RDD的repartitionAndSortWithinPartitions是在分区内进

浏览 3提问于2017-04-11得票数 15

回答已采纳

1回答

在spark中，按减少，然后是foreachpartition

我在spark中了解到，reducebykey将首先在每个分区上本地减少，然后进行混洗。然而，如果我在每个分区后执行reducebyKey操作，reducebykey是否仍然执行全局范围的reduce，或者它会将reduce限制在每个分区级别上，而不会在不同的分区之间进行混洗？

浏览 2提问于2018-10-04得票数 0

2回答

由于distcp在幕后使用map-reduce，有没有办法使用spark使这个过程更快呢？就像我们可以将hive执行引擎设置为'TEZ' (以取代map-reduce)一样，我们可以将distcp的执行引擎设置为spark吗？或者，有没有其他的'spark'方法可以跨集群复制数据，甚至不需要费心使用distcp？这里是我的第二个问题(假设我们可以将distcp执行引擎设置为spark</

浏览 1提问于2016-08-19得票数 0

2回答

将DataFrame partitionBy转换为单个拼图文件(每个分区)

、

我想对我的数据进行重新分区/合并，以便每个分区都能将其保存到一个Parquet文件中。我也想使用Spark SQL partitionBy API。", "year", "month", "day", "status") .parquet(s"$location") 我已经测试过了，它的性能似乎不太好这是因为

浏览 7提问于2016-01-14得票数 52

回答已采纳

1回答

Spark是否必须在执行操作之前完成所有输入文件的读取？

假设我有10个输入文件，每个文件都有几GB大小，我正在尝试将它们读入RDD并执行map/reduce操作。显然，reduce阶段必须等到全部10个文件全部加载完毕。但是map阶段可以更早开始吗？换句话说，Spark是否会逐段创建每个分区，然后立即开始对该分区的数据运行map操作……或者它会等到所有10个文件中的所有数据全部加载完毕，然后才在所有分区上同时启动map操作？

浏览 0提问于2016-04-30得票数 0

1回答

map scala中的拆分键值

、

我不知道这是否可行，但我希望在我的mapPartitions中将变量"a“一分为二。就像这里有一个存储所有数字的列表l和另一个存储所有单词的列表b。使用像a.mapPartitions((p,v) =>{ val l = p.toList; val b = v.toList; ....}这样的东西import scala.io.Source import org.apache.spark.rdd

浏览 0提问于2016-03-18得票数 1

1回答

Hadoop shuffle使用哪种协议？

、、、

在Hadoop数据的混洗阶段，映射的数据根据reducer的分区跨集群的节点传输。Hadoop使用什么协议在reduce阶段跨节点执行数据混洗？

浏览 0提问于2011-11-27得票数 2

回答已采纳

3回答

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

、、、

我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区，所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布)例如:假设我有下面的数据帧诸若此类正如您所看到的，许多值共享相同的键我想将这个数据集划分为"n“个分区，其中相同的键应该在相同的分

浏览 4提问于2020-03-13得票数 0

1回答

提前停止在星火中的减少操作

、、

result*/) { } else { }在Spark中这样做的方法是reduce一个RDD (包含迭代器返回的内容)： if (/*Some condition on result*/)someFunction(result,

浏览 1提问于2018-11-06得票数 1

回答已采纳

2回答

Spark:约简和reduceByKey语义的差异

、、、

在Spark的文档中，它说RDDs方法需要一个关联的和可交换的二进制函数。val r = sc.textFile("file4k&q

浏览 4提问于2016-02-04得票数 11

回答已采纳

1回答

使用Spark在不重复分组属性的情况下根据先前的列值设置列值

、

a| z|| c| q|我想用相应的IDKey值创建一个新列，其中每个值都会在IDKey的dataValue发生变化时发生变化，以下是预期的输出：|variableName|c| q| I2|我尝试执行以下使用mapP

浏览 0提问于2019-11-06得票数 3

1回答

10个最常见的女性名字-顺序改变

、

我在Databricks中运行了这个练习，下面的代码每次运行时都以不同的顺序返回firstName。请解释每次运行顺序不同的原因： val peopleDF = spark.read.parquet("/mnt/training/dataframes/people-10m.parquet") id:that contains the 10 most common female first names out of the people data set.*&#x

浏览 5提问于2019-09-09得票数 0

1回答

如何在pyspark中高效地将大型.tsv文件上传到拆分列的Hive表中？

、、

‘'Group’列实际上是某个id所属的所有组的列表，所以文件看起来像这样：id2 group2,group3,group4id1 group1id2 group2id2 group3id3 group1 我试着逐行读取，只需使用python spl

浏览 3提问于2019-08-08得票数 2

回答已采纳

2回答

使用Distinct列过滤结果会显著降低执行速度

、、

我用spark编写了一个自定义的RDD提供者，并在sql查询下测试了它的执行时间。我不确定这个提供程序的内部机制是否与这个问题相关，但基本上它用于从本地和远程文件读取数据。问题:使用“distinct”关键字运行查询(无论是用于聚合问题还是非聚合问题)都会对查询的性能产生严重影响。示例：查询:从destinationport=80执行时间为57856毫秒的事件中选择

浏览 0提问于2017-10-01得票数 0

1回答

如何将分区分配给星火中的任务

、

每个文件的大小为10 MB。当我执行df = spark.read.parquet(s3 path)时，文件(或者更确切地说是分区)是如何跨任务分发的？例如，在本例中，df将有100个分区，如果spark有10个任务用于将该文件夹的内容读取到数据框架中，那么分区是如何分配给这10个任务的？它是以循环的方式进行的，还是每个任务在基于范围的<

浏览 3提问于2019-12-09得票数 2

回答已采纳

1回答

Spark 2.4.6 + JDBC Reader:当谓词下推设置为false时，spark是否从引擎并行读取数据？

、、

我正在尝试从SAP HANA中的一个大表中提取数据，该表的大小约为1.5tb，最好的方法是跨节点和线程并行运行。Spark JDBC是该任务的完美候选者，但为了实际并行提取，它需要设置分区列、下限/上限和分区数选项。为了使提取操作更容易，我考虑添加一个分区列，它将是row_number()函数，并分别使用MIN()和MAX()作为下界/上界。然后，运营团队只需要提供要拥有的<em

浏览 25提问于2020-09-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Shuffle之所以发生，是因为Spark需要跨阶段传输数据

Spark vs Hadoop用这个简单的例子？

在混洗之前，是否通过在每个分区上运行ReduceByKey函数来优化Spark reduce函数？

如何使用RDD在分区内排序(并避免跨分区排序)？

在spark中，按减少，然后是foreachpartition

使用spark跨hadoop群集复制数据

将DataFrame partitionBy转换为单个拼图文件(每个分区)

Spark是否必须在执行操作之前完成所有输入文件的读取？

map scala中的拆分键值

Hadoop shuffle使用哪种协议？

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

提前停止在星火中的减少操作

Spark:约简和reduceByKey语义的差异

使用Spark在不重复分组属性的情况下根据先前的列值设置列值

10个最常见的女性名字-顺序改变

如何在pyspark中高效地将大型.tsv文件上传到拆分列的Hive表中？

使用Distinct列过滤结果会显著降低执行速度

如何将分区分配给星火中的任务

Spark 2.4.6 + JDBC Reader:当谓词下推设置为false时，spark是否从引擎并行读取数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐