腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
无法
使用
scala
在
spark
中
使用
groupByKey
对
2个
值
执行
聚合
、
、
这个问题是关于
spark
中
使用
scala
的
groupByKey
()。考虑以下数据Chris,30,1Robert,12,1
在
rdd下创建我正在尝试
浏览 83
提问于2018-09-09
得票数 3
1
回答
Spark
Structured Streaming -按分区单独
groupByKey
、
我的Kafka生产者正在根据给定的键将消息分发到主题分区
中
。如何仅在分区级别
执行
此
groupByKey
?|topic-partition1| ---> |
spark<
浏览 16
提问于2018-01-23
得票数 1
回答已采纳
2
回答
将自定义函数应用于星火数据访问组
、
、
、
、
我计划在dataframe中
使用
spark
,但我
对
如何
对
spark
分组数据
执行
自定义计算感到困惑。 前火花数据组应用f(x)。
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
1
回答
影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果
、
、
从医生那里: // Some contrived function def my
浏览 0
提问于2020-01-02
得票数 2
回答已采纳
0
回答
spark
Dataframe
中
的reducebykey和aggregatebykey
、
、
我正在
使用
spark
2.0从拼图文件
中
读取数据。("id").sum("balance")为了获得总余额
值
,这是在数据帧上
使用
action first()获取它的最佳方法吗?
在
spark
2.0
中
,是否可以
使用
groupby key
浏览 5
提问于2017-01-03
得票数 2
回答已采纳
1
回答
如何在apache
spark
中
按
值
聚合
、
、
我已经成功地从
spark
中
读取了cassandra,
使用
了以下语法:我需要在
spark
中
通过column1和column2进行
聚合
分组v
浏览 0
提问于2015-09-25
得票数 0
2
回答
在
星火中“by”和“`union`”后面跟着“`
groupByKey
`”的区别?
、
、
、
、
我找不到一个很好的理由:应有别于:但是,后者给了我一个错误,而前者没有。
浏览 2
提问于2015-12-13
得票数 0
回答已采纳
1
回答
Java
Spark
GroupByFailure
、
我正尝试
在
Hadoop 3.1.0上运行
Spark
2.3.0的集群中
使用
Java
Spark
库(并
使用
这些版本的Java库)。我遇到了一个问题,我根本不能
使用
groupByKey
,我也不知道为什么。在任何情况下,出于任何原因尝试
使用
groupByKey
都会返回java.lang.IllegalArgumentException。RDD,然后
使用
简单的拆分创建我的JavaPairRDD,然后尝试
groupBy
浏览 0
提问于2018-05-30
得票数 1
1
回答
星火数据集中的
groupByKey
、
、
当数据集上
使用
groupByKey
时,请帮助我理解传递给它的参数data: org.apache.
spark
.sql.Dataset[String] = [value: string]
scala
> data.flatMap(_.split(" ")).
groupByKey
(l=>l).cou
浏览 1
提问于2017-02-16
得票数 2
3
回答
Spark
中
的低性能reduceByKey()
、
、
我正在写一个关于
Spark
的程序,我只是根据键进行
聚合
。这个程序非常简单。我的输入数据只有2 2GB,运行在多核服务器(8核,32GBRAM)上,设置为local2。这就是
使用
两个内核进行并行化。我正在
使用
KryoSerializer。我猜这可能是由序列化程序引起的。如何解决这个问题?
浏览 0
提问于2014-03-11
得票数 2
回答已采纳
1
回答
如何在不
使用
flatMapsGroupWithState的情况下,
使用
结构化流2.3.0
在
spark
中进行无状态
聚合
?
、
、
如何在不
使用
flatMapsGroupWithState或Dstream API的情况下,
使用
结构化流2.3.0
在
spark
中进行无状态
聚合
?寻找一种更具声明性的方式select count(*) from some_view 我希望输出只计算每批
中
可用的任何记录,而不是前一批
中
的
聚合
记录
浏览 0
提问于2018-05-05
得票数 2
2
回答
reduceByKey的分区方面
、
、
尽管RDDs是遗留下来的--而且在下一次任务之前还有一点时间--我仍在想: 考虑到它的工作原理类似于Map
中
的
对
我来说没那么明显。
在
实际情况下,我怀疑它不是经常
使用
的,一般情况下(根据我自己的观察),已经重新划分了它。
浏览 3
提问于2020-05-21
得票数 1
1
回答
collect_set等效火花1.5UDAF方法验证
、
、
、
有人能告诉我火花1.5
中
collect_set的等效函数吗? buffer.update(0, new
scala
.collection.mutable.ArrayBuffer
浏览 2
提问于2016-10-12
得票数 0
1
回答
方法导致OutofMemory异常
、
我们
使用
Apache Beam,它是
在
火星车上
执行
的。我们的案件如下。这两个用例都会导致OutofMemory错误。1)连接-2个
使用
Apache的大表--一个大小为120 is的表,另一个为60 is的表。2)
GroupByKey
--我们根据如下键对数据集进行分组。PCollection>> costBasisRecords = masterDataResult.apply(
GroupByKey
.create()); 此
GroupbyKey
操作还会导致
浏览 1
提问于2017-12-16
得票数 0
回答已采纳
2
回答
如何结合星火数据
中
的数组列
、
、
_________________________我想将共享相同id的所有myStructs分组到myStructs的数组列
中
。我
在
Scala
外壳中
使用
Spark
1.5.2。 考虑到我
使用
的是
Spark
1.5.2,我不能
使用
collect_list或collect_set。
浏览 1
提问于2016-12-28
得票数 2
回答已采纳
1
回答
字符串,
Spark
2.0
中
的数据集
对
、
、
、
3 4 1 15 为了减少数据集,我已经按顺序和用户以及
聚合
的
在
Spark
中
,有没有一种方法可以按用户
对
订单进行分组,并以一
对
>结尾,其中用户是用户id,数据集包含订单?目前我看到的唯一解决方案是将数据集转换为rdd并
执行
groupbykey
来获取rddpair>,然后编写一些代码来
对</em
浏览 0
提问于2016-10-10
得票数 1
2
回答
星星之火:单流水线
scala
命令比单独的命令好吗?
、
例如:反对var b = a.map(f => (f(2),f(5).toInt)) var c = b.
groupByKey
浏览 3
提问于2013-10-13
得票数 1
回答已采纳
3
回答
如何计算星火中由(Key,[Value])
对
组成的RDD
中
每对的平均值?
、
我
对
Scala
和
Spark
都很陌生,所以如果我犯了这个错误,请原谅我。
在
接收csv文件之后,过滤和映射;我有一个RDD,它是一组(字符串,双)
对
。当在RDD上
使用
.
groupByKey
( )时,要获得一组(字符串、双)
对
的RDD,请
执行
以下操作。我只想
使用
.mean( )和.sampleStdev( )。当我试图创建一个新的RDD的方
浏览 2
提问于2015-06-18
得票数 5
1
回答
我能把
groupByKey
调用链接到pair_rdd
中
吗?
、
在
groupByKey
()
中
,可以
在
pair_rdd上链接两次pair_rdd调用吗?这是我的密码。首先,通过外部键调用
groupByKey
()调用组,然后将其赋予映射函数,
在
该函数
中
,我希望再次将resultIterable对象转换为pair_rdd,这样我就可以
执行
第二个
groupByKey
()并将我的函数
浏览 1
提问于2021-05-04
得票数 0
3
回答
火花-如何减少洗牌大小的JavaPairRDD<Integer,Integer[]>?
、
、
、
我有一个JavaPairRDD<Integer, Integer[]>,我想在它上
执行
一个
groupByKey
操作。我可以
在
中看到: 从
Spark
2.0.0开始,当
使用
简单类型、简单类型数组或字符串类型
对
RDD进行洗牌时,我们在内部
使用
Kryo序列化程序。
在
<e
浏览 4
提问于2017-03-11
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark提交参数说明和常见优化
Spark实战(5)_Spark Core核心编程
Spark性能优化:开发调优篇
大数据之谜Spark基础篇,Spark RDD内幕详解
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券