在PySpark中计算groupby后的sum和countDistinct_Pyspark:在groupby之后计算min和avg的错误结果_如何在Python中不计算重复值的情况下按groupby和sum - 腾讯云开发者社区

、、、、

我有一个PySpark数据框架，我想按几列分组，然后计算一些列的总和，并计算另一列的不同值。因为countDistinct不是一个内置的聚合函数，所以我不能使用我在这里尝试过的简单表达式： sum_cols = ['a', 'b']exprs1 = {} df_aggregated = df.groupby(&#x

浏览 126提问于2021-09-16得票数 2

回答已采纳

1回答

使用一个命令在星火中进行区分和和聚合

、、、、

目标很简单:从下表中按订单日期和状态计算不同数量的订单和总订单值：这必须在Spark的Dataframe (Python或Scala)中完成，而不是在而不是 SQL中完成。在SQL中，它很简单： select order_status, order_date, count(distinct order_item_id), sum(order_item_subtotal)

浏览 1提问于2018-09-19得票数 2

回答已采纳

2回答

Pyspark将列列表放入聚合函数

、、、

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。当我有一个单独的函数或一个列表时，我让它可以工作，但是当涉及到聚合变量时，我被困在将它们的列表引入到函数中 def aggregate(dataframe,grouping,aggregation,functions: df =

浏览 60提问于2020-11-26得票数 0

回答已采纳

2回答

熊猫群+在栏上应用的火花放电当量

、、

我有一个星星之火DataFrame，我想在groupby之后为一个变量计算唯一值的数量。在熊猫中，我可以从以下网址获得：df.groupby('UserName').apply(lambda x: x['Server'].nunique()) 如果df是一个pyspark，我如何才能得到相同的结果

浏览 4提问于2017-11-08得票数 4

回答已采纳

1回答

多个简单聚合最佳实践- countif/sumif格式

相对来说，我对Pyspark比较陌生，我正在寻求关于在一个长数据make上进行多个简单聚合的最佳方法的建议。所以我想知道每个顾客的情况：所以在excel术语中，本质上是相当多<

浏览 1提问于2019-05-13得票数 1

2回答

用带countDistinct函数的字典聚合火花放电

、、、

我正试图在dataframe上运行聚合。然后，我要计算每一列的不同值。我生成一个用于聚合的字典，其内容如下： expr = {x: "countDistinct" for x该函数既不是已注册的临时函数，也不是在数据库“默认”中注册的永久函数。如果我直接使用“countDistinct”，它就能工作：

浏览 7提问于2021-07-07得票数 2

回答已采纳

5回答

如何计算火花放电中groupBy后的唯一ID

、、

我每年都会使用下面的代码来提高学生的年龄。目的是了解每年的学生总数。from pyspark.sql.functions import colgr = Df2.groupby(['Year'])gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year')) 我发现这么多ID被重复

浏览 2提问于2017-09-26得票数 62

回答已采纳

1回答

用于封装的火花放电模拟

、、、、

我正在学习使用PySpark的火花，当我试图使事情变得更干净时，我只是碰壁而已。A | B | Ca | 1 | 1.300a | 3 | 1.000b | 4| 34.20我想在上面运行一些groupby -> agg，使用基本的pyspark.sql.funct

浏览 2提问于2016-10-11得票数 3

回答已采纳

1回答

TypeError：%d格式:需要一个数字，而不是列

、、、

编辑:我不觉得它是重复的，因为我不是试图将数据连接到数据中，而是获得一个int (或string)值，以便在字符串格式中使用它。我正试图查询pyspark中的数据集，并计算从出生月份到出生年份的大约年龄presc_par_med = med.join(presc.groupBy(presc.chaiprat).agg(F.sum(p

浏览 0提问于2018-07-14得票数 0

1回答

如何在pyspark dataframe中获取列的唯一值并存储为新列

、、

基本上，我想知道某个客户在其他数据集中购买了多少品牌，并将其重命名为change brand，以下是我在Pandas中所做的 firstvalue=firstvalue.merge((pd.DataFramehpbrand_change_num')) .reset_index()),how='left',on=['msisdn']) 下面是我在pyspark中所做的(没有合

浏览 76提问于2021-08-30得票数 0

回答已采纳

3回答

吡啶sql查询:用条件计数不同的值

、

p2 | 12.0 | bhd |我想要统计不同的病人，谁吃了bhd，每名医生的消费< 16.0。我尝试了以下查询，但它不起作用： .agg( countDistinct(col("id_patient

浏览 0提问于2019-01-02得票数 3

回答已采纳

1回答

在pyspark中使用过滤条件求和

、、、、

我在pyspark数据帧中做一些聚合。我需要检查PAYMNT_STATUS列，在此基础上，我需要获取不同列的sum，并需要在新列中分配。另外，我对不同的状态进行计数，并将其分配到一个新列中。我编写的pyspark查询如下所示： result=df1.groupby(countrry,year).withColumn('Amt1',sf.when(sf.col('PAYMNT_STA

浏览 30提问于2020-10-21得票数 0

1回答

在pyspark中聚合json数据

、

我刚接触pyspark，有没有人能帮我汇总一下这些数据。我在一个文本文件中有json数据，如下所示{"a":1 , "b":"abc2", "abc", "d":&qu

浏览 2提问于2017-02-27得票数 2

回答已采纳

1回答

火花多动态聚合函数，countDistinct不能工作

、、、、

多个动态聚合操作的星火数据聚集。var cols = ["colA","colB"]var ag

浏览 0提问于2019-04-11得票数 4

回答已采纳

1回答

Pivot在用户保留中的不同计数

、、、、

我正在尝试使用Pyspark创建一个用户保留表，我可以将该表传输到AWS来创建一个ETL作业，我可以在QuickSight中使用雅典娜进行查询。然后将此注册日期与活动日期进行比较，以计算用户注册后的活动时间。此后，我想要跟踪在某个月注册的用户中有多少在0，1，2周之后是活跃的。因此，我想计算出在第0周之后，在第1周之后，用户的不同数量，即不是按月分组，然后跟踪的正

浏览 1提问于2022-04-27得票数 1

回答已采纳

1回答

如何划分两个相加和数据

、

我想除以pyspark中两列的和。例如，我有如下所示的数据集： 1 1 2 3 3 1 2 3 6 (Sum ofcolB) / 3 (Sum of colA) = 2sumofA = df.groupby().sum('A') sumofB = df.gr

浏览 2提问于2020-03-27得票数 3

回答已采纳

1回答

按另一列使用已分组的数据格式使用pyspark

、、

key得到唯一的ip_addr的总数，以及唯一的key_2的总数，然后是每个category贡献的唯一ip_address的数量(假设category中的值是恒定的，所以category的值只能是桌面1 0我一直在尝试这样的

浏览 1提问于2020-09-17得票数 0

回答已采纳

1回答

PySpark:计数对出现频率

假设我有一个数据集，如下所示： 1: a, b, c3: c, d, e 我想写一个Pyspark代码来计算每个对的出现次数，比如(a,b), (a,c), (b,c)等。注意，(c,d)和(d,c)应该是同一时刻。我该怎么做呢？到目前为止，我已经编写了从文本文件中读取数据的代码，如下所示- sc = SparkContext("local", "bp")data = s

浏览 72提问于2021-11-17得票数 0

1回答

groupBy上的条件逻辑

、、

我有一个看起来像这样的pyspark sql dataframe：------------------------| 2 | 02 || 3 | 04 | 我试着得到这样的输出，如果id的任何条目包含code 03 或 06，那么它的bin=1 else bin=0的</e

浏览 2提问于2021-10-20得票数 0

1回答

spark中的数据类型转换

、、、

我有一个列id，它的类型是int，但后来更改为bigint。它具有这两种类型的值。from pyspark.sql.functions import *res1=df.select("id1", "code") res1.show(1, False) 它显示了数据框，但当我尝试对它们执行一些操作时，示例如下：

浏览 107提问于2021-01-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云