将RDD的键列对应的多个列表中的元素相加

我必须为多个列表添加元素。将列表1的元素1添加到列表2的元素1，然后添加到列表3的元素1。对于加拿大，添加47,59,77作为元素1，97,98,63作为第二个元素，依此类推。我试图扁平化列表以添加它们，并尝试转换为dataframe，但我失败了。

浏览 68提问于2019-05-28得票数 0

回答已采纳

1回答

reduceByKey:它是如何在内部工作的？

、、

我是Spark和Scala的新手。我对reduceByKey函数在Spark中的工作方式感到困惑。data.txt")val counts = pairs.reduceByKey((a, b) => a + b) 映射函数很清晰:s是键，它指向data.txt中的行，1是值。但是，我不知道reduceByKey在内部是如何工作的？"a“是否指向关键字？或者，"

浏览 42提问于2015-05-10得票数 66

回答已采纳

1回答

如何通过在python中添加2个RDD的对应元素来创建RDD

、、

所以我有两个RDD1 (假设是RDD1和RDD2)，每个都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3，其中RDD3中的每个元素都是RDD1和RDD2的相应元素的相加。

浏览 12提问于2020-07-10得票数 0

1回答

使用groupBy获取rdd列的求和和长度？

、、、

我有以下RDD： [(1,300，1)，(2,10，3)，(4,80,2)] 元组中列表中的第一个值是和(例如，对于2:它的2+3+5 = 10)，第二个值是no。发生的事件(例如一次发生一次)。能否使用groupBy函数实现预期的RDD？

浏览 0提问于2021-04-11得票数 0

回答已采纳

1回答

如何在Pyspark中使用RDD嵌套列表来获取不同的字典？

、、

我有一个dict，它的key是字符串，list是value，形状如下：所以在我的每个RDD分区中都存储了字典。例如，假设在我的RDD I存储的一个分区中： [{"link0":["link1","link2"]}, {"link1":["link2&quo

浏览 7提问于2020-05-23得票数 0

回答已采纳

2回答

火花放电RDD countByKey()如何计算？

、、、

在发布这个问题之前，我搜索了这个社区，并引用了pyspark文档，但我仍然无法理解它是如何计数的。

浏览 0提问于2019-02-03得票数 3

回答已采纳

2回答

如何在一列中汇总这些值，而在另一列中保持一个不同的值？

、

我有一个数据库表，它在一列中有多个代码，对应于另一列中的某些值。例如，A列中的特定代码对应于B列中的值。A列中有数千个重复条目，它们对应于B列中的不同值。我想将B列中所有具有A列中特定代码的值相加

浏览 5提问于2015-12-15得票数 0

回答已采纳

2回答

使用Spark groupByKey来消除重复数据，这会导致大量的混洗开销

、、

我有一个键-值对RDD。RDD包含一些具有重复键的元素，我想将原始RDD拆分为两个RDD:一个存储具有唯一键的元素，另一个存储其余元素。例如,<k1,v1>, <k1,v2>, <k1,v3>, <k2,v4>, <k2,v5>, <k3,v6>

浏览 0提问于2017-11-19得票数 1

1回答

如何使用Map/Reduce或任何其他方法查找rdd的每列的最小和最大值

、

我已经在一个RDD中读取了近100个CSV文件我想要找到RDD.Nearly 100列中每一列的最小值和最大值。有人可以建议我如何找到不同列的R

浏览 6提问于2019-05-02得票数 0

2回答

如何将RDD.groupBy()的结果从(key，[values])展平为(key，values)？

来自键-值对的RDD，如 [(1, 3), (2, 4), (2, 6)] 我希望获得元组的RDD，如下所示 [(1, 3), (2, 4, 6)] 其中，每个元组的第一个元素是原始RDD中的关键字，下一个(多个)元素是与原始RDD中的该关键字相关联的所有值我已经试过了 rdd.groupB

浏览 24提问于2019-09-14得票数 0

回答已采纳

1回答

计算文本行中每一个单词的频率-火花

、、、

我在PySpark中用这个表单创建了一个rdd：对于第一个项目，this位于第一个row(0)中

浏览 1提问于2021-12-31得票数 0

回答已采纳

3回答

Python Spark如何使用RDD* API按组查找累计和*

、、、

我是spark编程的新手。需要与火花python程序的帮助，在那里我有像这样的输入数据，并希望获得每个组的累积摘要。如果有人能在这方面指导我，我将不胜感激。输入数据：11,1,2,15012,2,1,70所需的输出数据如下：11,1,2,250 /(100+150)12,1,1,5012,2,2,90 / (70+20)def par

浏览 4提问于2017-03-21得票数 3

1回答

在RDDs上点燃左外接和重复键

、、、

我有两个RDD (键，值)。我的第二个RDD比我的第一个RDD短。我想将我的第一个RDD的每个值与第二个RDD中的相应值关联起来，这是关于键的。的多个元素具有相同的键。现在，当在rdd2中找不到相应的<e

浏览 2提问于2021-03-09得票数 0

回答已采纳

1回答

Scala-Spark1.5.2中递归筛选RDD

、、

我有一个包含50列的RDD，其中我想为每一行获取第一个元素和最后5个列，其中最后一行的第一个字符的值是一个数字，如果最后一列的第一个字符是一个字符，则继续这个过程。例如，假设原始的RDD有以下内容(为了便于阅读，不包括键)：[44 first values], 0, 1, 2, 3, 4, b [我设法用以下句子过

浏览 2提问于2017-04-04得票数 1

回答已采纳

1回答

写入时对数据进行分区的自定义文件格式

您好，我想将我的spark数据帧保存到一个具有自定义文件格式的文件中，以便它在写入文件时将数据分区到不同的文件中。此外，我需要为每个分区关键字的单一部分文件。我已经尝试扩展TextBasedFileFormat和change writer来满足我的需求。在没有随机写入文件的情况下对数据进行分区。但我觉得每个rdd分区都会将数据写入不同的部分文件

浏览 16提问于2019-05-29得票数 0

回答已采纳

1回答

如何根据特定逻辑从另一个RDD生成新的RDD

我是星火的新生。我有个问题，但我不知道怎么解决。我在RDD中的数据如下：(2,{E,F,G})11 A,B13 C,D22 F,G如何生成新的密钥并提取相邻元素？

浏览 3提问于2015-10-26得票数 0

回答已采纳

1回答

如何根据每个父RDD的元素将一个RDD划分为多个RDD

、、

我想找到一种方法来根据每个fatherRDD的元素将一个RDD划分为多个RDD。def splitRDD(rdd1:

浏览 2提问于2017-03-14得票数 1

回答已采纳

2回答

循环遍历复杂的散列结构

、

我有以下散列结构$chainStorage{$R1}{$S1}{$C1} = \@A1 'ACB' => { 'D' => {'15' => [168]}}; 例如，ACB对应于两个数组，[1

浏览 0提问于2011-12-23得票数 2

回答已采纳

2回答

Google数据存储对象化与地图的保存问题

、、

列表中只有一个元素的remove(0)使map属性从实体中消失，同时使用objectify保存到google。在下面的代码之后进行保存会导致map属性从数据存储中消失，当键"dress"对应的列表只有一个元素时

浏览 5提问于2016-09-17得票数 1

回答已采纳

2回答

如何在星火RDD中通过键连接两个散列映射

、、

的格式各有两个RDD。 RDD2-> {string1,HashMap[{long c,object}]RDD->{string1,H

浏览 3提问于2015-03-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

reduceByKey:它是如何在内部工作的？

如何通过在python中添加2个RDD的对应元素来创建RDD

使用groupBy获取rdd列的求和和长度？

如何在Pyspark中使用RDD嵌套列表来获取不同的字典？

火花放电RDD countByKey()如何计算？

如何在一列中汇总这些值，而在另一列中保持一个不同的值？

使用Spark groupByKey来消除重复数据，这会导致大量的混洗开销

如何使用Map/Reduce或任何其他方法查找rdd的每列的最小和最大值

如何将RDD.groupBy()的结果从(key，[values])展平为(key，values)？

计算文本行中每一个单词的频率-火花

Python Spark如何使用RDD* API按组查找累计和*

在RDDs上点燃左外接和重复键

Scala-Spark1.5.2中递归筛选RDD

写入时对数据进行分区的自定义文件格式

如何根据特定逻辑从另一个RDD生成新的RDD

如何根据每个父RDD的元素将一个RDD划分为多个RDD

循环遍历复杂的散列结构

Google数据存储对象化与地图的保存问题

如何在星火RDD中通过键连接两个散列映射

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐