groupBy聚合函数中的PySpark循环

文章/答案/技术大牛

发布

1回答

pyspark、group-by、aggregate

我有一个很大的表，我正在尝试计算按位置分组的一些列的总和(带条件)。我的代码如下所示，并且我有越来越多的列 df.groupBy(location_column).agg(df.groupBy(location_column).agg([F.sum(F.when(F.col(x) == True, F.col(v

浏览 16提问于2021-03-18得票数 0

回答已采纳

6回答

PySpark groupBy中的中位数/分位数

apache-spark、pyspark、apache-spark-sql

我想计算星火数据中的组分位数(使用PySpark)。无论是近似的还是精确的结果都可以。我更喜欢可以在groupBy / agg上下文中使用的解决方案，以便将其与其他PySpark聚合函数混合使用。如果由于某种原因这是不可能的，那么采用不同的方法也是可以的。是相关的，但没有指明如何使用approxQuantile作为聚合函数</

浏览 5提问于2017-10-20得票数 76

回答已采纳

1回答

是否有可能将.agg(字典)与.alias()重命名为结果列？

pyspark、aggregate

我有一个'pyspark_df‘，我想对数据进行分组，并将数据聚合成一个通用函数字符串名，如下所示:'avg’、'count‘、'max’、'mean‘、'min’或'sum‘。无论聚合类型如何，我都需要得到聚合的名称。我做到了以下几点。'Balance'name_to_be_Changed = aggType + '(' +

浏览 3提问于2019-11-13得票数 0

回答已采纳

1回答

PySpark中是否有相当于Pandas聚合函数的任何函数？

python、pandas、group-by、pyspark

我想把下面的熊猫代码翻译成PySpark代码 newCol3 = ('colD', 'any')).reset_index()imp

浏览 5提问于2019-11-25得票数 0

回答已采纳

1回答

如何在groupBy聚合函数中使用BitwiseOR操作

python、apache-spark、pyspark

我如何在pySpark Dataframe.groupBy中使用bitwiseOR作为聚合函数，有像sum这样的内置函数可以为我做这件事吗？

浏览 21提问于2019-08-22得票数 0

回答已采纳

1回答

熊猫到火花放电环境

python、dataframe、pyspark、apache-spark-sql

[] count12 = new_df.loc[new_df[col].diff() == 1]在pyspark中没有获得所有列长度的选项。

浏览 5提问于2022-09-18得票数 1

回答已采纳

2回答

不带聚合或计数的Pyspark* groupBy DataFrame*

python、pyspark、pyspark-dataframes

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

电火花聚合

pyspark、iteration、aggregation

100 | ws | | | 2022-02-01|现在我有一个sql聚合m_date1, 'SAT')) as dat1,min(NEXT(m_date3, 'SAT')) as dat3GROUPBY1,2 我希望使用Pyspark实现上述聚合</em

浏览 5提问于2022-04-23得票数 1

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

2回答

pyspark dataframe、groupby和列的方差计算

python、pyspark、spark-dataframe、pyspark-sql

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我

浏览 7提问于2015-08-12得票数 5

2回答

Pyspark将列列表放入聚合函数

python、apache-spark、pyspark、apache-spark-sql

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单

浏览 60提问于2020-11-26得票数 0

回答已采纳

1回答

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

python、pandas、apache-spark、pyspark、apache-spark-sql

lunch| 0.4||102| dinner| 0.3|我想将它转换成以下格式:在列中由timeSlot id 以为枢轴，以 id作为行索引，以及 ratio的聚合(和)值。0.5||102| 0.3| 0.4| 0.3|对于这样的操作= df[['morning&

浏览 2提问于2020-06-22得票数 2

回答已采纳

1回答

如何划分两个相加和数据

python-3.x、pyspark

我想除以pyspark中两列的和。例如，我有如下所示的数据集： 1 1 2 3 3 1 2 3 6 (Sum ofcolB) / 3 (Sum of colA) = 2sumofA = df.groupby().sum('A') sumofB = df.groupby().sum('B')Resul

浏览 2提问于2020-03-27得票数 3

回答已采纳

1回答

在AWS Glue中聚合数据帧的好方法是什么

amazon-web-services、apache-spark、spark-dataframe、aws-glue

我正在尝试在AWS Glue中聚合数据帧。我使用了以下pySpark代码来执行聚合：是否有更好的方式在AWS Glue中执行聚合？

浏览 0提问于2017-11-09得票数 5

2回答

带有groupby的pyspark* collect_set或collect_list*

list、group-by、set、pyspark、collect

在groupby之后，如何在数据帧上使用collect_set或collect_list。例如：df.groupby('key').collect_set('values')。

浏览 2提问于2016-06-02得票数 62

回答已采纳

2回答

使用字典应用聚合时的Pyspark列名别名

python、apache-spark、pyspark

我正在将聚合函数应用于pyspark中的数据框架中。我使用字典传递列名和聚合函数。df.groupBy(column_name).agg({"column_name":"sum"})def aggr

浏览 16提问于2022-02-23得票数 2

1回答

在pyspark中的情况下的总和

pyspark、aggregate

我正在尝试将hql脚本转换为pyspark。我正在努力在groupby子句之后的聚合中实现case when语句的总和。例如： SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在pyspark中是可能的<

浏览 0提问于2016-11-23得票数 1

回答已采纳

1回答

pyspark 1.4如何在聚合函数中获取列表

python、list、pyspark、apache-spark-1.4

我想在pyspark 1.4中获取聚合函数中的列值列表。collect_list不可用。有没有人有建议怎么做？date, hour, cell1, 1030, 01, cell22, 1030, 02, cell4ID, date, hour, cell_list 1, 1030, 01, cell1

浏览 4提问于2017-12-07得票数 0

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

sum、pyspark、word-count

我有这样的数据：|count| country|| 12| Ireland|+-----+--------+ AttributeError: 'DataFrame' object has no attribute'sum' 我确实导入了from pyspark.sql.function

浏览 3提问于2017-05-29得票数 1

2回答

用带countDistinct函数的字典聚合火花放电

sql、dataframe、pyspark、group-by

我正试图在dataframe上运行聚合。然后，我要计算每一列的不同值。我生成一个用于聚合的字典，其内容如下：这样做是行不通的</em

浏览 7提问于2021-07-07得票数 2

回答已采纳

点击加载更多