如何在spark的一个map函数中将RDD like ((int，int)，int)转换为3个键值对？

、

现在，我有一个如下格式的RDD我尝试将其转换为3个键值对，如(int，1)。我可以使用3个map函数来实现这一点，然后将它们连接在一起，但这肯定不是实现它的最佳方式，同样通过使用case，我可以生成((int，1)，(int，1)，(int，1))<

浏览 4提问于2017-02-21得票数 1

回答已采纳

1回答

ArrayWritable的Pyspark用法

、、

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有这样的类型，用伪代码编写：我想把它保存在hadoop文件系统上。为此，我将列表转换为元组并调用.saveAsSequenceFile。<init>()无法使用sc.sequenceFile重新加载rdd。下面是一个尝试保存(i

浏览 2提问于2015-12-01得票数 2

3回答

如何使用Spark和Scala创建RDD[Map(Int，Int)]？

、、

我有以下Java中的简单代码。此代码创建并用0值填充Map。Map<Integer,Integer> myMap = new HashMap<Integer,Integer>();我想使用Spark和Scala创建一个类似的RDD。我尝试过这种方法，但它返回的是RDD[(Any) => (Any,I

浏览 11提问于2018-01-06得票数 0

回答已采纳

3回答

如何连接两个RDD: value不是org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]的成员

、、

我正在使用Spark2.1.0和Scala2.10.6val x = (avroRow1).join(flattened)value join is not amember of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]import org.apache.spark.rdd.RDD import org

浏览 0提问于2017-07-10得票数 0

1回答

具有10个以上元素的键的SortByKey()

、、、

我一直使用sortByKey()对元组中的键值进行排序。如果元组的大小小于9，则sortByKey函数可以正常工作。但是在大小为10的时候，sortByKey()方法失败了。如何打印大小为10或更大的元组的排序关键字。如果我使用大小为9的密钥对RDD执行如下打印，则工作示例：res31: org.apache.spark.rdd</em

浏览 5提问于2017-02-27得票数 0

回答已采纳

3回答

星星之火/scala字符串到json内部映射

、、、

我有一个看起来像pairRDD的(2, {"id":2, "picture": "url2"})(x,y("picture"))

浏览 5提问于2016-12-02得票数 0

2回答

值联接不是org.apache.spark.rdd.RDD的成员

、

我得到了这个错误： org.apache.spark.rdd.RDD[(Long, (Int, (Long, String, Array[_0])))我找到的唯一建议是import org.apache.spark.SparkContext编辑:更改代码以消除forSome (即，当对象的类型为o

浏览 1提问于2015-03-26得票数 4

回答已采纳

3回答

在Scala星火中获取第n个不同的关键元组

、、、

我有一个带有Tuple的RDD，如下所示如何使用不同的键获得前两个元组。如果我采取( 2)，我将得到(a，1)和(a，2) 我需要的是(a，1)，(b,1) (键是不同的)。价值观是无关紧要的。

浏览 0提问于2016-08-01得票数 1

回答已采纳

1回答

来自单个键的多个键值对，使用火花转换函数的值

、、、

我有一个折页格式的RDD：res0: org.apache.spark.rdd.RDD[(Int, List[Int])] = ShuffledRDD[23]//(userID,List(freqMovies):res1: (Int,

浏览 3提问于2017-02-23得票数 2

回答已采纳

2回答

将KVP中的RDD值转换为PySpark中的整数

、、、、

我正在尝试将我的column2键值对中的RDD值从字符串转换为整数，以便能够将它们相加并计算平均值。列在映射阶段自动显示为整数，但收到错误消息，“TypeError：'type‘对象没有’getitem‘属性”test = textfile.map(lambda x: (x.split(",")[1], x.split(

浏览 0提问于2017-12-02得票数 0

1回答

无法从Spark2.0.1中的dataset/dataframe收集数据；获取ClassCastException

、

我有一些json数据，它们是键值对，其中ints作为键，ints的列表作为值。我想把这些数据读入地图，然后广播它，这样它就可以被另一个RDD用来快速查找。).json(myPath).map(r => (r.getInt(0), r.getAs[WrappedArray[Int]].toArray)).collectAsMap)这让我得到了我现在想要的： org.apache.spark.sql.D

浏览 3提问于2016-10-25得票数 0

回答已采纳

2回答

从RDD获取模式

、

我希望使用Spark + Scala从rdd中获取模式(最常见的数字)。val l = List(3,4,4,3,3,7,7,7,9)val grouped=

浏览 1提问于2019-09-05得票数 0

回答已采纳

1回答

将数据添加到hashmap中，从apache-spark操作(Java)开始。

、、、

我使用了一个映射步骤来创建一个包含一些我需要的对象的JavaRDD对象。基于这些对象，我希望创建一个包含一些统计信息的全局hashmap，但我无法确定要使用哪个RDD操作。一开始我认为reduce是解决方案，但后来我看到您必须返回相同类型的对象。我不想减少项目，而是从所有机器收集所有的统计数据(它们可以单独计算，然后添加up_。例如:我有一个RDD对象，其中包含一个整数数组，我希望通过将每个整数放在

浏览 7提问于2016-02-08得票数 0

3回答

SCALA:一列分组，另一列求和

、

我是Scala的新手。输入文件中包含的数据为：a,efaf,3b,fafdr,3a,4object WordCount { // dataRDD.collect().foreach(println(_))`

浏览 0提问于2018-08-13得票数 0

2回答

如何利用Scala中的DataFrame在星火中创建分布式稀疏矩阵

、、、

问题数据的摘录如下，但是有大量的用户和特性，并且没有为用户测试所有的特性。，那么就有解释的方法。因此，一种方法可以是将数据转换为应用这些方法。我想使用其中之一： org.apache.spark.mllib.lin

浏览 1提问于2019-11-20得票数 5

回答已采纳

1回答

星星之火:值直方图不是org.apache.spark.rdd.RDD[Option[Any]]的成员

、、、

我刚开始使用spark和scala，我对scala提出了一个编译错误:假设我们有一个rdd，它是这样的一个映射： //some opsMap( "B" -> someInt_var2 /

浏览 1提问于2017-09-10得票数 1

回答已采纳

2回答

如何求和两个RDD[Int]s的对应元素？

、

我想做一个非常简单的手术。我需要实现两个向量之间的相加，对于{1,2,3,4,5}，{6,7,8,9,10}，我想得到向量{7,9,11,13,15}。在我的代码中，这两个向量由两个RDDInt表示。val v1 = sc.parallelize(List(1,2,3,4,5))我知道，当我映射另一个RDD时，我无法浏览RDD，因此我不知道如何实现这样简单的操作。

浏览 8提问于2017-05-28得票数 0

回答已采纳

2回答

统计每个字符串的值的出现次数

、、

我在表格上找到一份文件这是一个文件，我在其中获得了几个键(string)和每个键的许多值(Array[String])。我希望能够计算每个单独字符串的值中每次出现的次数。我尝试了不同的方法，但我还没有找到任何有效的方法。

浏览 0提问于2018-03-16得票数 0

1回答

Pyspark 2.1.0中的自定义分区程序

、、

我的理论是，如果我可以对它们进行分区(通过一个名为date_day的字段)并将它们放在一起，那么我就可以避免混洗。)不幸的是，我甚至不能测试我关于协同定位和避免混洗的理论/python/pyspark/sql/dataframe.py", line 380, in count

浏览 2提问于2017-11-05得票数 5

2回答

如何为Scala中的函数分配不同的返回类型？

、、、

我试图编写一个函数，它应该根据输入返回不同的对。我已经重写了Scala中的"+ -/ *“以供我的特定用途。每个实现( +，-，*，/)都有三个基于输入的实现。现在，我有了一个解析器，它从输入(如: RDD+1 )读取表达式，解析它并创建后缀，以使计算更容易，比如: RDD1+，然后我想使用实现的+进行计算。在的帮助下，我试图

浏览 3提问于2015-07-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

ArrayWritable的Pyspark用法

如何使用Spark和Scala创建RDD[Map(Int，Int)]？

如何连接两个RDD: value不是org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]的成员

具有10个以上元素的键的SortByKey()

星星之火/scala字符串到json内部映射

值联接不是org.apache.spark.rdd.RDD的成员

在Scala星火中获取第n个不同的关键元组

来自单个键的多个键值对，使用火花转换函数的值

将KVP中的RDD值转换为PySpark中的整数

无法从Spark2.0.1中的dataset/dataframe收集数据；获取ClassCastException

从RDD获取模式

将数据添加到hashmap中，从apache-spark操作(Java)开始。

SCALA:一列分组，另一列求和

如何利用Scala中的DataFrame在星火中创建分布式稀疏矩阵

星星之火:值直方图不是org.apache.spark.rdd.RDD[Option[Any]]的成员

如何求和两个RDD[Int]s的对应元素？

统计每个字符串的值的出现次数

Pyspark 2.1.0中的自定义分区程序

如何为Scala中的函数分配不同的返回类型？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐