腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在Java中使用Tuple3时,combineByKey
的
替代方案是什么?
、
、
、
我刚刚开始使用Java
中
的
Apache Spark。我目前正在做一个带有一些书籍数据
的
迷你项目。我必须找到每个国家最受欢迎
的
作家。我有一个
pairRDD
,其中键是国家,
值
是作者,如下所示 [(usa,C.我是否必须使用Tuple3再添加一个字段并计算每个
值
出现
的
次数?如果是这样,我如
何在
Tuple3
中
使用combineByKey?我有
另一个
想法,我可以从
pairRDD
中提取所有的<
浏览 3
提问于2017-10-31
得票数 0
1
回答
加入两个RDD[String] -Spark Scala
、
、
、
、
value fullOuterJoin is not a member of org.apache.spark.rdd.RDD[String] join应该加入RDDString,输出RDD应该是这样
的
:有人能帮我做同样
的
事吗?
浏览 1
提问于2016-05-12
得票数 2
2
回答
如
何在
另一个
PairRDD
的
转换
中
查找
(
PairRDD
)
的
键
和
值
、
、
、
我有一个带有整数
键
和
Integer[]
值
的
PairRDD
rdd1。
键
中
的
每个整数
和
rdd1
的
值
也作为
键
存在于rdd2
中
。我希望rdd1
中
的
每一对(x, [y
浏览 1
提问于2017-03-10
得票数 0
回答已采纳
1
回答
PySpark:将一对RDD
转换
回常规RDD
、
、
有任何方法可以将一对RDD
转换
回常规RDD吗?然后创建一对rdd (即
键
是",“之前
的
字符串,而
值
是",”之后
的
字符串)
pairRDD
= rdd.map(lambda x : (x.split(",")[0], x.split(",")[1]))
浏览 1
提问于2015-10-06
得票数 1
回答已采纳
1
回答
火花
转换
PairRDD
到RDD
、
、
将
PairRDD
转换
为具有K
和
V
的
RDD
的
最佳方法是什么(在java
中
)?("abc", {"x:"100", "y":"200"}) ("def", {"x":
浏览 6
提问于2017-10-20
得票数 2
1
回答
得到字符串列表
的
字符串
的
AggregateByKey
、
我有一个字符串类型
的
pairRDD
,String。第一列表示
键
,第二列表示
值
。我需要聚合RDD,以便得到一个字符串-> ListString,可以在以后使用collectAsMap。例如,我有一个表单
的
pairRDD
:B,bA,dC,cC,b 我过去曾使用aggregateByKey来计算单词
的
实例,这意味着只需要添加值。但是,我不知道如何才能从字符串
中
获取字符串列表。应用aggregateByKey之后,
浏览 1
提问于2019-07-19
得票数 0
回答已采纳
1
回答
在RDD
中
查找
元素
的
替代
和
更快
的
方法是什么?
、
、
、
我是斯卡拉
和
斯派克
的
新手。这是我
的
整个代码
的
一个简单例子:import org.apache.spark.,我需要更快
的
性能。通过查看星火
的
网络用户界面
和
一个软件分析器。最耗时
的
是lookup()函数:在RDD而不是lookup(
浏览 1
提问于2017-10-29
得票数 2
2
回答
如
何在
Apache Spark
中
拆分输入文件
假设我有一个大小为100MB
的
输入文件。它包含CSV格式
的
大量点(经纬度对)。我应该做什么,以便在Apache Spark中将输入文件拆分为10个10MB文件,或者如何自定义拆分。注意:我希望处理每个映射器
中
的
点
的
子集。
浏览 2
提问于2014-12-23
得票数 4
回答已采纳
1
回答
不等于星火中分区数
的
任务数
将键值对持久化到DB 正如预期
的</e
浏览 3
提问于2016-07-21
得票数 0
回答已采纳
4
回答
RDD
和
Pair RDD
的
区别
和
用例
我刚开始接触spark,并试图理解普通RDD
和
配对RDD之间
的
区别。使用成对RDD而不是普通RDD
的
用例有哪些?如果可能,我想通过一个例子来了解pair RDD
的
内部结构。谢谢
浏览 1
提问于2016-05-06
得票数 15
1
回答
将rdd
转换
为
pairRDD
、
这是个新手
的
问题。是否可以将具有动态维度
的
RDD类(key,1,2,3,4,5,5,666,789,...)
转换
为类似
pairRDD
的
(key, (1,2,3,4,5,5,666,789,...))这样做
的
意义是,我想把所有的价值加起来,但不是关键。我正在使用Spark1.2.0 编辑受答案启发,我解释我
的
用例更深入。我有N(编译时未知
的
)不同
的
pairRDD
(
浏览 1
提问于2015-05-28
得票数 3
1
回答
如何使用java连接spark
中
的
3个RDD表?
所有这三个都有唯一
的
密钥,比如ippaddress
和
boxnumber,它们可以在上面进行匹配/加入。以下是所有表
中
的
一些示例数据。表A列boxnumber必须
转换
为number才能匹配。94.254.57.16|sky|2023|003DF6A.ts|12-02-2016|chile我在java
中
的
第一次尝试extractTable_A); }
浏览 0
提问于2016-05-06
得票数 0
2
回答
在从本地系统读取文件时获取文件名
、
、
、
、
补充最新情况:我正在使用ElementTree来解析XML我在python
中
运行了代码,它运行起来很有魅力。但当我试图运行相同
的
火花,我得到以下错误。但我不知道如
何在
浏览 9
提问于2017-08-24
得票数 0
回答已采纳
1
回答
如何将元素与相似的
键
组合起来?
我有一个具有
键
/
值
对
的
RDD,并且希望组合具有大约相同
键
的
元素。 我该怎么做?
浏览 1
提问于2015-09-10
得票数 0
3
回答
在火花上找不到reduceByKey方法
、
我在我
的
Java月食上使用
的
是火花核心2.10 jar。我在里面找不到任何reduceBykey方法!我对reduce
的
建议只有reduce
和
treeReduce。知道这是怎么回事吗?
浏览 5
提问于2016-09-08
得票数 0
回答已采纳
2
回答
如
何在
scala spark
中
通过
键
连接两个数据集
、
我有两个数据集,每个数据集都有两个元素。下面是一些例子。('abc,def', 'monkey(1)')...('a,efg', 'apple')...('abc,def', 'monkey(1)', 'banana(1)')
浏览 2
提问于2016-10-03
得票数 4
回答已采纳
1
回答
以有效
的
方式获得所有可能
的
JavaPairRDD密钥组合
、
、
、
使用Spark,我
的
算法
的
中间步骤之一将输出(
键
,向量)到一个
PairRDD
。在这个步骤完成之后,我想要生成所有可能
的
键
组合,并对它们
的
值
执行进一步
的
操作(我希望有一个
PairRDD
with ((Key1,Key2),(Vector1,Vector2))。但是,我不知道如何高效地使用Spark --我能想象
的
唯一方法是在一台机器上收集所有的键值对并在其上执行组合,这显然是不可伸缩
的</em
浏览 0
提问于2018-12-19
得票数 0
回答已采纳
1
回答
是否可以通过Spark进行自定义连接(不是通过主键)?
、
我可以通过它们
的
主键连接成对
的
RDD,但是可以基于
值
对象
的
某些属性进行连接吗?我想加入这两个TV_station_information station_name与View_information station_name匹配
的
列表我不能做View_information station_name
的
密钥,因为每个站点都有大量
的
时间块。此外,我还通过Spark在其
浏览 1
提问于2015-02-25
得票数 0
1
回答
RDD中文本文件
的
标头
、
java中使用spark,我有一个.csv文件,其中包含以下元素:1,Titi,Jaune,53,Pitié,Noir,5public Tuple2<Integer, String> call(
浏览 1
提问于2016-06-08
得票数 0
回答已采纳
2
回答
将输入文件映射到不同
的
RDDs
、
我有一个由整数列组成
的
文本文件。假设我有N个列,我需要有N-1个
PairRDD
。每个
PairRDD
都有我
的
文件
的
0到N-2列
中
的
一列作为
键
,最后一列作为
值
。每次运行程序时,我
的
文件
中
的
列数都会变化,所以在运行之前我不知道RDDs
的
数量。 val lines = line.split(
浏览 0
提问于2018-01-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark实战(5)_Spark Core核心编程
如何在 Excel 二维表中横向查找最晚更新的非空值?
70个NumPy练习:在Python下一举搞定机器学习矩阵运算
70个NumPy分级练习:用Python一举搞定机器学习矩阵运算
Excel公式的所有用法(共13种)……全在这儿了!
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券