无法使用scala在spark中使用groupByKey对2个值执行聚合

、、

这个问题是关于spark中使用scala的groupByKey()。考虑以下数据Chris,30,1Robert,12,1在rdd下创建我正在尝试

浏览 83提问于2018-09-09得票数 3

1回答

Spark Structured Streaming -按分区单独groupByKey

、

我的Kafka生产者正在根据给定的键将消息分发到主题分区中。如何仅在分区级别执行此groupByKey？|topic-partition1| ---> |spark<

浏览 16提问于2018-01-23得票数 1

回答已采纳

2回答

将自定义函数应用于星火数据访问组

、、、、

我计划在dataframe中使用spark，但我对如何对spark分组数据执行自定义计算感到困惑。前火花数据组应用f(x)。

浏览 2提问于2016-09-20得票数 10

回答已采纳

1回答

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

、、

从医生那里： // Some contrived function def my

浏览 0提问于2020-01-02得票数 2

回答已采纳

0回答

spark Dataframe中的reducebykey和aggregatebykey

、、

我正在使用spark 2.0从拼图文件中读取数据。("id").sum("balance")为了获得总余额值，这是在数据帧上使用action first()获取它的最佳方法吗？在spark 2.0中，是否可以使用groupby key

浏览 5提问于2017-01-03得票数 2

回答已采纳

1回答

如何在apache spark中按值聚合

、、

我已经成功地从spark中读取了cassandra，使用了以下语法：我需要在spark中通过column1和column2进行聚合分组v

浏览 0提问于2015-09-25得票数 0

2回答

在星火中“by”和“`union`”后面跟着“`groupByKey`”的区别？

、、、、

我找不到一个很好的理由：应有别于：但是，后者给了我一个错误，而前者没有。

浏览 2提问于2015-12-13得票数 0

回答已采纳

1回答

我正尝试在Hadoop 3.1.0上运行Spark 2.3.0的集群中使用Java Spark库(并使用这些版本的Java库)。我遇到了一个问题，我根本不能使用groupByKey，我也不知道为什么。在任何情况下，出于任何原因尝试使用groupByKey都会返回java.lang.IllegalArgumentException。RDD，然后使用简单的拆分创建我的JavaPairRDD，然后尝试groupBy

浏览 0提问于2018-05-30得票数 1

1回答

星火数据集中的groupByKey

、、

当数据集上使用groupByKey时，请帮助我理解传递给它的参数data: org.apache.spark.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).groupByKey(l=>l).cou

浏览 1提问于2017-02-16得票数 2

3回答

Spark中的低性能reduceByKey()

、、

我正在写一个关于Spark的程序，我只是根据键进行聚合。这个程序非常简单。我的输入数据只有2 2GB，运行在多核服务器(8核，32GBRAM)上，设置为local2。这就是使用两个内核进行并行化。我正在使用KryoSerializer。我猜这可能是由序列化程序引起的。如何解决这个问题？

浏览 0提问于2014-03-11得票数 2

回答已采纳

1回答

如何在不使用flatMapsGroupWithState的情况下，使用结构化流2.3.0在spark中进行无状态聚合？

、、

如何在不使用flatMapsGroupWithState或Dstream API的情况下，使用结构化流2.3.0在spark中进行无状态聚合？寻找一种更具声明性的方式select count(*) from some_view 我希望输出只计算每批中可用的任何记录，而不是前一批中的聚合记录

浏览 0提问于2018-05-05得票数 2

2回答

reduceByKey的分区方面

、、

尽管RDDs是遗留下来的--而且在下一次任务之前还有一点时间--我仍在想：考虑到它的工作原理类似于Map中的对我来说没那么明显。在实际情况下，我怀疑它不是经常使用的，一般情况下(根据我自己的观察)，已经重新划分了它。

浏览 3提问于2020-05-21得票数 1

1回答

collect_set等效火花1.5UDAF方法验证

、、、

有人能告诉我火花1.5中collect_set的等效函数吗？ buffer.update(0, new scala.collection.mutable.ArrayBuffer

浏览 2提问于2016-10-12得票数 0

1回答

方法导致OutofMemory异常

、

我们使用Apache Beam，它是在火星车上执行的。我们的案件如下。这两个用例都会导致OutofMemory错误。1)连接-2个使用Apache的大表--一个大小为120 is的表，另一个为60 is的表。2) GroupByKey --我们根据如下键对数据集进行分组。PCollection>> costBasisRecords = masterDataResult.apply(GroupByKey.create())；此GroupbyKey操作还会导致

浏览 1提问于2017-12-16得票数 0

回答已采纳

2回答

如何结合星火数据中的数组列

、、

_________________________我想将共享相同id的所有myStructs分组到myStructs的数组列中。我在Scala外壳中使用Spark1.5.2。考虑到我使用的是Spark1.5.2，我不能使用collect_list或collect_set。

浏览 1提问于2016-12-28得票数 2

回答已采纳

1回答

字符串，Spark* 2.0中的数据集对*

、、、

3 4 1 15 为了减少数据集，我已经按顺序和用户以及聚合的在Spark中，有没有一种方法可以按用户对订单进行分组，并以一对>结尾，其中用户是用户id，数据集包含订单？目前我看到的唯一解决方案是将数据集转换为rdd并执行groupbykey来获取rddpair>，然后编写一些代码来对</em

浏览 0提问于2016-10-10得票数 1

2回答

星星之火:单流水线scala命令比单独的命令好吗？

、

例如：反对var b = a.map(f => (f(2),f(5).toInt)) var c = b.groupByKey

浏览 3提问于2013-10-13得票数 1

回答已采纳

3回答

如何计算星火中由(Key，[Value])对组成的RDD中每对的平均值？

、

我对Scala和Spark都很陌生，所以如果我犯了这个错误，请原谅我。在接收csv文件之后，过滤和映射；我有一个RDD，它是一组(字符串，双)对。当在RDD上使用.groupByKey( )时，要获得一组(字符串、双)对的RDD，请执行以下操作。我只想使用.mean( )和.sampleStdev( )。当我试图创建一个新的RDD的方

浏览 2提问于2015-06-18得票数 5

1回答

我能把groupByKey调用链接到pair_rdd中吗？

、

在groupByKey()中，可以在pair_rdd上链接两次pair_rdd调用吗？这是我的密码。首先，通过外部键调用groupByKey()调用组，然后将其赋予映射函数，在该函数中，我希望再次将resultIterable对象转换为pair_rdd，这样我就可以执行第二个groupByKey()并将我的函数

浏览 1提问于2021-05-04得票数 0

3回答

火花-如何减少洗牌大小的JavaPairRDD<Integer，Integer[]>？

、、、

我有一个JavaPairRDD<Integer, Integer[]>，我想在它上执行一个groupByKey操作。我可以在中看到：从Spark2.0.0开始，当使用简单类型、简单类型数组或字符串类型对RDD进行洗牌时，我们在内部使用Kryo序列化程序。在<e

浏览 4提问于2017-03-11得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Structured Streaming -按分区单独groupByKey

将自定义函数应用于星火数据访问组

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

spark Dataframe中的reducebykey和aggregatebykey

如何在apache spark中按值聚合

在星火中“by”和“`union`”后面跟着“`groupByKey`”的区别？

Java Spark* GroupByFailure*

星火数据集中的groupByKey

Spark中的低性能reduceByKey()

如何在不使用flatMapsGroupWithState的情况下，使用结构化流2.3.0在spark中进行无状态聚合？

reduceByKey的分区方面

collect_set等效火花1.5UDAF方法验证

方法导致OutofMemory异常

如何结合星火数据中的数组列

字符串，Spark* 2.0中的数据集对*

星星之火:单流水线scala命令比单独的命令好吗？

如何计算星火中由(Key，[Value])对组成的RDD中每对的平均值？

我能把groupByKey调用链接到pair_rdd中吗？

火花-如何减少洗牌大小的JavaPairRDD<Integer，Integer[]>？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐