腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3961)
视频
沙龙
2
回答
如
何在
spark
的
一个
map
函数
中将
RDD
like
((
int
,
int
),
int
)转
换为
3个
键值
对
?
、
现在,我有
一个
如下格式
的
RDD
我尝试将其转
换为
3个
键值
对
,
如
(
int
,1)。我可以使用3个
map
函数
来实现这一点,然后将它们连接在一起,但这肯定不是实现它
的
最佳方式, 同样通过使用case,我可以生成((
int
,1),(
int
,1),(
int
,1))<
浏览 4
提问于2017-02-21
得票数 1
回答已采纳
1
回答
ArrayWritable
的
Pyspark用法
、
、
我尝试在pyspark上保存
一个
键值
RDD
。
RDD
的
每个单元都有这样
的
类型,用伪代码编写:我想把它保存在hadoop文件系统上。为此,我将列表转
换为
元组并调用.saveAsSequenceFile。<init>()无法使用sc.sequenceFile重新加载
rdd
。 下面是
一个
尝试保存(
i
浏览 2
提问于2015-12-01
得票数 2
3
回答
如何使用
Spark
和Scala创建
RDD
[
Map
(
Int
,
Int
)]?
、
、
我有以下Java中
的
简单代码。此代码创建并用0值填充
Map
。
Map
<Integer,Integer> myMap = new HashMap<Integer,Integer>();我想使用
Spark
和Scala创建
一个
类似的
RDD
。我尝试过这种方法,但它返回
的
是
RDD
[(Any) => (Any,
I
浏览 11
提问于2018-01-06
得票数 0
回答已采纳
3
回答
如何连接两个
RDD
: value不是org.apache.
spark
.
rdd
.
RDD
[org.apache.
spark
.sql.Row]
的
成员
、
、
我正在使用
Spark
2.1.0和Scala2.10.6val x = (avroRow1).join(flattened)value join is not amember of org.apache.
spark
.
rdd
.
RDD
[org.apache.
spark
.sql.Row]import org.apache.
spark
.
rdd
.
RDD
import org
浏览 0
提问于2017-07-10
得票数 0
1
回答
具有10个以上元素
的
键
的
SortByKey()
、
、
、
我一直使用sortByKey()
对
元组中
的
键值
进行排序。如果元组
的
大小小于9,则sortByKey
函数
可以正常工作。但是在大小为10
的
时候,sortByKey()方法失败了。如何打印大小为10或更大
的
元组
的
排序关键字。如果我使用大小为9
的
密钥
对
RDD
执行如下打印,则工作示例:res31: org.apache.
spark
.
rdd</em
浏览 5
提问于2017-02-27
得票数 0
回答已采纳
3
回答
星星之火/scala字符串到json内部映射
、
、
、
我有
一个
看起来像pairRDD
的
(2, {"id":2, "picture": "url2"})(x,y("picture"))
浏览 5
提问于2016-12-02
得票数 0
2
回答
值联接不是org.apache.
spark
.
rdd
.
RDD
的
成员
、
我得到了这个错误: org.apache.
spark
.
rdd
.
RDD
[(Long, (
Int
, (Long, String, Array[_0])))我找到
的
唯一建议是import org.apache.
spark
.SparkContext编辑:更改代码以消除forSome (即,当对象
的
类型为o
浏览 1
提问于2015-03-26
得票数 4
回答已采纳
3
回答
在Scala星火中获取第n个不同
的
关键元组
、
、
、
我有
一个
带有Tuple
的
RDD
,如下所示如何使用不同
的
键获得前两个元组。如果我采取( 2),我将得到(a,1)和(a,2) 我需要
的
是(a,1),(b,1) (键是不同
的
)。价值观是无关紧要
的
。
浏览 0
提问于2016-08-01
得票数 1
回答已采纳
1
回答
来自单个键
的
多个
键值
对
,使用火花转换
函数
的
值
、
、
、
我有
一个
折页格式
的
RDD
:res0: org.apache.
spark
.
rdd
.
RDD
[(
Int
, List[
Int
])] = ShuffledRDD[23]//(userID,List(freqMovies):res1: (
Int
,
浏览 3
提问于2017-02-23
得票数 2
回答已采纳
2
回答
将KVP中
的
RDD
值转
换为
PySpark中
的
整数
、
、
、
、
我正在尝试将我
的
column2
键值
对
中
的
RDD
值从字符串转
换为
整数,以便能够将它们相加并计算平均值。列在映射阶段自动显示为整数,但收到错误消息,“TypeError:'type‘对象没有’getitem‘属性”test = textfile.
map
(lambda x: (x.split(",")[1], x.split(
浏览 0
提问于2017-12-02
得票数 0
1
回答
无法从
Spark
2.0.1中
的
dataset/dataframe收集数据;获取ClassCastException
、
我有一些json数据,它们是
键值
对
,其中ints作为键,ints
的
列表作为值。我想把这些数据读入地图,然后广播它,这样它就可以被另
一个
RDD
用来快速查找。).json(myPath).
map
(r => (r.getInt(0), r.getAs[WrappedArray[
Int
]].toArray)).collectAsMap)这让我得到了我现在想要
的
: org.apache.
spark
.sql.D
浏览 3
提问于2016-10-25
得票数 0
回答已采纳
2
回答
从
RDD
获取模式
、
我希望使用
Spark
+ Scala从
rdd
中获取模式(最常见
的
数字)。val l = List(3,4,4,3,3,7,7,7,9)val grouped=
浏览 1
提问于2019-09-05
得票数 0
回答已采纳
1
回答
将数据添加到hashmap中,从apache-
spark
操作(Java)开始。
、
、
、
我使用了
一个
映射步骤来创建
一个
包含一些我需要
的
对象
的
JavaRDD对象。基于这些对象,我希望创建
一个
包含一些统计信息
的
全局hashmap,但我无法确定要使用哪个
RDD
操作。一开始我认为reduce是解决方案,但后来我看到您必须返回相同类型
的
对象。我不想减少项目,而是从所有机器收集所有的统计数据(它们可以单独计算,然后添加up_。例如:我有
一个
RDD
对象,其中包含
一个
整数数组,我希望通过将每个整数放在
浏览 7
提问于2016-02-08
得票数 0
3
回答
SCALA:一列分组,另一列求和
、
我是Scala
的
新手。输入文件中包含
的
数据为:a,efaf,3b,fafdr,3a,4object WordCount { // dataRDD.collect().foreach(println(_))`
浏览 0
提问于2018-08-13
得票数 0
2
回答
如何利用Scala中
的
DataFrame在星火中创建分布式稀疏矩阵
、
、
、
问题数据
的
摘录如下,但是有大量
的
用户和特性,并且没有为用户测试所有的特性。,那么就有解释
的
方法。因此,一种方法可以是将数据转
换为
应用这些方法。我想使用其中之一: org.apache.
spark
.mllib.lin
浏览 1
提问于2019-11-20
得票数 5
回答已采纳
1
回答
星星之火:值直方图不是org.apache.
spark
.
rdd
.
RDD
[Option[Any]]
的
成员
、
、
、
我刚开始使用
spark
和scala,我
对
scala提出了
一个
编译错误:假设我们有
一个
rdd
,它是这样
的
一个
映射: //some ops
Map
( "B" -> someInt_var2 /
浏览 1
提问于2017-09-10
得票数 1
回答已采纳
2
回答
如何求和两个
RDD
[
Int
]s
的
对应元素?
、
我想做
一个
非常简单
的
手术。我需要实现两个向量之间
的
相加,对于{1,2,3,4,5},{6,7,8,9,10},我想得到向量{7,9,11,13,15}。在我
的
代码中,这两个向量由两个RDDInt表示。val v1 = sc.parallelize(List(1,2,3,4,5))我知道,当我映射另
一个
RDD
时,我无法浏览
RDD
,因此我不知道如何实现这样简单
的
操作。
浏览 8
提问于2017-05-28
得票数 0
回答已采纳
2
回答
统计每个字符串
的
值
的
出现次数
、
、
我在表格上找到一份文件这是
一个
文件,我在其中获得了几个键(string)和每个键
的
许多值(Array[String])。我希望能够计算每个单独字符串
的
值中每次出现
的
次数。我尝试了不同
的
方法,但我还没有找到任何有效
的
方法。
浏览 0
提问于2018-03-16
得票数 0
1
回答
Pyspark 2.1.0中
的
自定义分区程序
、
、
我
的
理论是,如果我可以对它们进行分区(通过
一个
名为date_day
的
字段)并将它们放在一起,那么我就可以避免混洗。)不幸
的
是,我甚至不能测试我关于协同定位和避免混洗
的
理论/python/pyspark/sql/dataframe.py", line 380, in count
浏览 2
提问于2017-11-05
得票数 5
2
回答
如何为Scala中
的
函数
分配不同
的
返回类型?
、
、
、
我试图编写
一个
函数
,它应该根据输入返回不同
的
对
。我已经重写了Scala中
的
"+ -/ *“以供我
的
特定用途。每个实现( +,-,*,/)都有三个基于输入
的
实现。现在,我有了
一个
解析器,它从输入(
如
:
RDD
+1 )读取表达式,解析它并创建后缀,以使计算更容易,比如:
RDD
1+,然后我想使用实现
的
+进行计算。在
的
帮助下,我试图
浏览 3
提问于2015-07-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据技术,Spark之RDD,RDD的两种算子介绍
万字长文,Spark 架构原理和RDD算子详解一网打进!
Spark应用数据分片介绍
C语言 手撕一个HashMap
Spark1.6官方文档译文系列一
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券