如何在Spark中一次对多列进行聚合

、

我有一个有多列的dataframe。我希望按其中一列进行分组，并一次性聚合所有其他列。假设表有4列，cust_id，f1，f2，f3，我想按cust_id分组，然后得到avg(f1)，avg(f2)和avg(f3).The表将有很多列。有什么提示吗？下面的代码是一个很好的开始，但是因为我有很多列，所以手动编写它们可能不是一个好主意。

浏览 1提问于2016-08-13得票数 5

回答已采纳

1回答

JDBCRDD或RDD中的聚合

、、、

我是Sacla和Spark的新手，我正在尝试使用SqlServer创建一个使用jdbcRDD的Spark查询，并使用映射和聚合对其进行一些转换。这就是我所拥有的，一个包含n个字符串列和m个数字列的表。我要寻找的是创建一个等级档案结构，对字符串进行分组，并聚合数字列，如|->A1|->A2B |-

浏览 4提问于2015-10-01得票数 0

回答已采纳

2回答

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

我使用的是Spark SQL 2.2.0。在执行查询时，如： from TB1 group by COL1").explain()在GROUP BY子句中指定字符串列不会强制基于排序的聚合。然而，与仅仅比较两个值相比，收集一组不同的值、对其

浏览 32提问于2017-12-11得票数 6

1回答

在spark sql中选择数组类型

、

我在cassandra DB中有一个表，其中一列包含ip地址列表，如{['10.100.164.33'，'10.100.164.36'，'10.100.164.37'}。现在我想通过spark sql进行查询，比如选择其中一个ip是10.100.164.36的行。如何在spark sql中查询。

浏览 4提问于2017-05-22得票数 0

1回答

使用Spark组对PairRDD进行高效的DataFrame操作

、、、

当涉及到聚合操作时，这个问题是关于DataFrame和RDD之间的二元性的。在Spark中，可以使用表生成UDF进行自定义聚合，但创建其中一个比使用RDDs可用的聚合函数对用户的友好性要低得多，特别是在不需要表输出的情况下。是否有一种有效的方法可以将对RDD操作(如aggregateByKey )应用于已使用组分组或使用ordered进行排序的DataFrame？

浏览 3提问于2015-08-03得票数 4

回答已采纳

1回答

星火GroupBy和聚合字符串生成基于条件的字符串计数图

、、

我有一个有两个多列的dataframe，其中两个是id和label，如下所示。1| "abc"|| 2| "def"|+---+---+---++---+---+--+--+--+--+--+--+---+---

浏览 1提问于2020-01-15得票数 0

回答已采纳

1回答

SSIS聚合转换

我需要做一个聚合，它对一个字段进行分组并对该字段进行计数，我遇到的问题是聚合来自多播。我尝试从多播中进行排序，然后进行聚合，但我丢失了所有其他列，我需要它们。我尝试添加另一个来自多播的排序，这样我就可以拥有所有列，并将所有转换合并到一个合并中，但包在来自多播的排序上挂起。多播也被路由到条件拆分中，其中一个拆分将具有一个聚合，该聚合</e

浏览 12提问于2017-07-19得票数 0

2回答

如何在DataFrame中跨组使用LinearRegression？

、、、

假设我的spark DataFrame (DF)看起来像----------------------------id | intercept| slope ----------------lr_object.intercept_, lr_ob

浏览 1提问于2017-05-04得票数 1

1回答

当一个数据集涉及聚合时如何连接两个流数据集

、、、、

我在下面的代码片段中出现了错误-.add("quantity", IntegerType)创建流源数据集.select(fr

浏览 3提问于2020-02-18得票数 0

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

count| country|| 12| Ireland|+-----+--------+ 当我添加sum()函数以获得第一列'

浏览 3提问于2017-05-29得票数 1

2回答

在groupby子句中，错误的含义是什么不能处理非唯一的多个索引？

、、、、

我有一个数据，它有三个级别的索引，我希望计算一个值偏离平均值有多大。但根据我的指数，对于不同的群体，我有不同的平均值。这就是我试过的：但是，我得到了一个错误，我在下面插入了堆栈跟踪。我不知道为何会有这样的问题。 <ipython-input-4-678992689ff2>

浏览 2提问于2016-03-17得票数 8

1回答

我正在运行相同的聚合管道与星火应用程序和Mongos控制台。在控制台上，数据是在眨眼之间获取的，只需要第二次使用"it“来检索所有预期的数据。如您所见，正在启动242项任务以获取结果。我不知道为什么会启动这么多的任务，而MongoDB聚合只返回40个文档。它看起来有一个很高的开销。/output"); 然后，我使用hdfs dfs -getmerge /user/spark/output/ output.csv并<em

浏览 0提问于2016-11-04得票数 5

回答已采纳

1回答

在中查找10,000列的平均值和相关性

、、、

我有10K列和7000万行的DF。我要计算10K列的平均值和相关性。我做了下面的代码，但由于代码大小64K问题()，它无法工作。有谁试过有10K列的DF？是否有改善工作表现的建议？

浏览 3提问于2016-10-14得票数 4

1回答

星火ML转换器-使用rangeBetween在窗口上聚合

、、、、

我想要创建自定义Spark转换器，它使用构造over window在滚动窗口中应用聚合功能。我希望能够在Spark管道中使用这个变压器。"cts", sum("someColumnName").over(w)) 窗口w包括当前事务和从当前事务到700 ms内

浏览 2提问于2017-11-03得票数 0

回答已采纳

3回答

使用RDD从CSV文件中过滤数据

、

我对Spark还不熟悉，并试图找出如何在具有多个条件的RDD中使用筛选器，并获得records.Scenario的计数如下：有一个CSV文件，它有多列标题，如ID，日期，描述，类型，年份等。

浏览 1提问于2018-10-12得票数 0

回答已采纳

1回答

SQL -转置查询数据，并在

、

我再一次来寻求你的指导。我不知道这有多可能，但我只能希望。我想知道现在是否有可能转换数据，以便每个日期有24个单独的每小时条目？因此，与其在2014-01-01年期间，在一个单独的列中每小时都有一个读数的单行，是否有可能对其进行修改，使之只有两列</e

浏览 4提问于2021-10-12得票数 0

回答已采纳

1回答

熊猫群的集合忽略空白或无值

、、

我对蟒蛇和熊猫很陌生。如何在忽略空白/None/NaN值的多列上应用groupby和聚合？基本上，我希望按日期对列进行聚合，并对其余的列进行计数，忽略无/空/NaN值。None None NaN 2013-11-12我试图在这些值上应用groupby并计数增益函

浏览 3提问于2015-09-14得票数 2

2回答

火花:在装载过程中分组

、

通常，我加载csv文件，然后运行不同类型的聚合，例如，使用Spark运行"group“。我想知道是否有可能在文件加载期间启动这种操作(通常是几百万行)，而不是对它们进行顺序化，以及它是否值得(节省时间)。为了理解Spark的工作原理，groupBy (或aggregate)将被“推迟”到加载整个文件csv。如果这是正确的，那么加载和分组是否可以在“相同的”时间运行，而不是对这两个步骤进行排序？

浏览 2提问于2016-08-21得票数 3

回答已采纳

2回答

Cassandra群和过滤结果

、、、、

quantity) {'123': 33, '456': 14, '789': 15} 但是，通过映射值进行过滤似乎是不可能的，既不使用聚合的最终函数，也不使用单独的函数。

浏览 5提问于2015-07-28得票数 2

2回答

ApacheSpark2.1-- Row对象的Scala长/重属性

、、、

我们已经用Scala2.11编写了一个spark应用程序，它运行在Spark2.1.0独立集群上。根据设计/要求，我们已经构造了具有很多直接列(如100 s)的row对象，并且很少有嵌套列，其中一些嵌套列也很重，比如有20k到30k的序列。也有匹配的案例类来使用星火数据集。02... column_151 = Seq, column_152 = Seq...column_160 = S

浏览 0提问于2017-11-09得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

JDBCRDD或RDD中的聚合

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

在spark sql中选择数组类型

使用Spark组对PairRDD进行高效的DataFrame操作

星火GroupBy和聚合字符串生成基于条件的字符串计数图

SSIS聚合转换

如何在DataFrame中跨组使用LinearRegression？

当一个数据集涉及聚合时如何连接两个流数据集

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

在groupby子句中，错误的含义是什么不能处理非唯一的多个索引？

MongoDB火花连接器-聚合速度慢

在中查找10,000列的平均值和相关性

星火ML转换器-使用rangeBetween在窗口上聚合

使用RDD从CSV文件中过滤数据

SQL -转置查询数据，并在

熊猫群的集合忽略空白或无值

火花:在装载过程中分组

Cassandra群和过滤结果

ApacheSpark2.1-- Row对象的Scala长/重属性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐