腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
PySpark
中
计算
groupby
后
的
sum
和
countDistinct
、
、
、
、
我有一个
PySpark
数据框架,我想按几列分组,然后
计算
一些列
的
总和,并
计算
另一列
的
不同值。因为
countDistinct
不是一个内置
的
聚合函数,所以我不能使用我在这里尝试过
的
简单表达式:
sum
_cols = ['a', 'b']exprs1 = {} df_aggregated = df.
groupby
(
浏览 126
提问于2021-09-16
得票数 2
回答已采纳
1
回答
使用一个命令
在
星火中进行区分和和聚合
、
、
、
、
目标很简单:从下表
中
按订单日期
和
状态
计算
不同数量
的
订单
和
总订单值:这必须在Spark
的
Dataframe (Python或Scala)
中
完成,而不是
在
而不是 SQL
中
完成。
在
SQL
中
,它很简单: select order_status, order_date, count(distinct order_item_id),
sum
(order_item_subtotal)
浏览 1
提问于2018-09-19
得票数 2
回答已采纳
2
回答
Pyspark
将列列表放入聚合函数
、
、
、
我有一个关于
Pyspark
中
的
udf
的
问题
和
一个具体
的
案例。我正在尝试创建一个简单
的
、可重用
的
函数来聚合不同级别
和
组上
的
值。当我有一个单独
的
函数或一个列表时,我让它可以工作,但是当涉及到聚合变量时,我被困在将它们
的
列表引入到函数
中
def aggregate(dataframe,grouping,aggregation,functions: df =
浏览 60
提问于2020-11-26
得票数 0
回答已采纳
2
回答
熊猫群+
在
栏上应用
的
火花放电当量
、
、
我有一个星星之火DataFrame,我想在
groupby
之后为一个变量
计算
唯一值
的
数量。
在
熊猫
中
,我可以从以下网址获得:df.
groupby
('UserName').apply(lambda x: x['Server'].nunique()) 如果df是一个
pyspark
,我如何才能得到相同
的
结果
浏览 4
提问于2017-11-08
得票数 4
回答已采纳
1
回答
多个简单聚合最佳实践- countif/sumif格式
相对来说,我对
Pyspark
比较陌生,我正在寻求关于
在
一个长数据make上进行多个简单聚合
的
最佳方法
的
建议。所以我想知道每个顾客
的
情况: 所以
在
excel术语
中
,本质上是相当多<
浏览 1
提问于2019-05-13
得票数 1
2
回答
用带
countDistinct
函数
的
字典聚合火花放电
、
、
、
我正试图
在
dataframe上运行聚合。然后,我要
计算
每一列
的
不同值。我生成一个用于聚合
的
字典,其内容如下: expr = {x: "
countDistinct
" for x该函数既不是已注册
的
临时函数,也不是在数据库“默认”中注册
的
永久函数。如果我直接使用“
countDistinct
”,它就能工作:
浏览 7
提问于2021-07-07
得票数 2
回答已采纳
5
回答
如何
计算
火花放电
中
groupBy
后
的
唯一ID
、
、
我每年都会使用下面的代码来提高学生
的
年龄。目的是了解每年
的
学生总数。from
pyspark
.sql.functions import colgr = Df2.
groupby
(['Year'])gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year')) 我发现这么多ID被重复
浏览 2
提问于2017-09-26
得票数 62
回答已采纳
1
回答
用于封装
的
火花放电模拟
、
、
、
、
我正在学习使用
PySpark
的
火花,当我试图使事情变得更干净时,我只是碰壁而已。A | B | Ca | 1 | 1.300a | 3 | 1.000b | 4| 34.20我想在上面运行一些
groupby
-> agg,使用基本
的
pyspark
.sql.funct
浏览 2
提问于2016-10-11
得票数 3
回答已采纳
1
回答
TypeError:%d格式:需要一个数字,而不是列
、
、
、
编辑:我不觉得它是重复
的
,因为我不是试图将数据连接到数据
中
,而是获得一个int (或string)值,以便在字符串格式中使用它。我正试图查询
pyspark
中
的
数据集,并
计算
从出生月份到出生年份
的
大约年龄presc_par_med = med.join(presc.
groupBy
(presc.chaiprat).agg(F.
sum
(p
浏览 0
提问于2018-07-14
得票数 0
1
回答
如何在
pyspark
dataframe
中
获取列
的
唯一值并存储为新列
、
、
基本上,我想知道某个客户在其他数据集中购买了多少品牌,并将其重命名为change brand,以下是我
在
Pandas中所做
的
firstvalue=firstvalue.merge((pd.DataFramehpbrand_change_num')) .reset_index()),how='left',on=['msisdn']) 下面是我
在
pyspark
中所做
的
(没有合
浏览 76
提问于2021-08-30
得票数 0
回答已采纳
3
回答
吡啶sql查询:用条件计数不同
的
值
、
p2 | 12.0 | bhd |我想要统计不同
的
病人,谁吃了bhd,每名医生
的
消费< 16.0。我尝试了以下查询,但它不起作用: .agg(
countDistinct
(col("id_patient
浏览 0
提问于2019-01-02
得票数 3
回答已采纳
1
回答
在
pyspark
中使用过滤条件求和
、
、
、
、
我
在
pyspark
数据帧
中
做一些聚合。我需要检查PAYMNT_STATUS列,在此基础上,我需要获取不同列
的
sum
,并需要在新列中分配。另外,我对不同
的
状态进行计数,并将其分配到一个新列
中
。我编写
的
pyspark
查询如下所示: result=df1.
groupby
(countrry,year).withColumn('Amt1',sf.when(sf.col('PAYMNT_STA
浏览 30
提问于2020-10-21
得票数 0
1
回答
在
pyspark
中
聚合json数据
、
我刚接触
pyspark
,有没有人能帮我汇总一下这些数据。我
在
一个文本文件中有json数据,如下所示{"a":1 , "b":"abc2", "abc", "d":&qu
浏览 2
提问于2017-02-27
得票数 2
回答已采纳
1
回答
火花多动态聚合函数,
countDistinct
不能工作
、
、
、
、
多个动态聚合操作
的
星火数据聚集。var cols = ["colA","colB"]var ag
浏览 0
提问于2019-04-11
得票数 4
回答已采纳
1
回答
Pivot在用户保留
中
的
不同计数
、
、
、
、
我正在尝试使用
Pyspark
创建一个用户保留表,我可以将该表传输到AWS来创建一个ETL作业,我可以
在
QuickSight中使用雅典娜进行查询。然后将此注册日期与活动日期进行比较,以
计算
用户注册
后
的
活动时间。此后,我想要跟踪
在
某个月注册
的
用户中有多少
在
0,1,2周之后是活跃
的
。因此,我想
计算
出在第0周之后,
在
第1周之后,用户
的
不同数量,即不是按月分组,然后跟踪
的
正
浏览 1
提问于2022-04-27
得票数 1
回答已采纳
1
回答
如何划分两个相加和数据
、
我想除以
pyspark
中
两列
的
和
。例如,我有如下所示
的
数据集: 1 1 2 3 3 1 2 3 6 (
Sum
ofcolB) / 3 (
Sum
of colA) = 2sumofA = df.
groupby
().
sum
('A') sumofB = df.
gr
浏览 2
提问于2020-03-27
得票数 3
回答已采纳
1
回答
按另一列使用已分组
的
数据格式使用
pyspark
、
、
key得到唯一
的
ip_addr
的
总数,以及唯一
的
key_2
的
总数,然后是每个category贡献
的
唯一ip_address
的
数量(假设category
中
的
值是恒定
的
,所以category
的
值只能是桌面1 0我一直
在
尝试这样
的
浏览 1
提问于2020-09-17
得票数 0
回答已采纳
1
回答
PySpark
:计数对出现频率
假设我有一个数据集,如下所示: 1: a, b, c3: c, d, e 我想写一个
Pyspark
代码来
计算
每个对
的
出现次数,比如(a,b), (a,c), (b,c)等。注意,(c,d)
和
(d,c)应该是同一时刻。 我该怎么做呢?到目前为止,我已经编写了从文本文件
中
读取数据
的
代码,如下所示- sc = SparkContext("local", "bp")data = s
浏览 72
提问于2021-11-17
得票数 0
1
回答
groupBy
上
的
条件逻辑
、
、
我有一个看起来像这样
的
pyspark
sql dataframe:------------------------| 2 | 02 || 3 | 04 | 我试着得到这样
的
输出,如果id
的
任何条目包含code 03 或 06,那么它
的
bin=1 else bin=0
的</e
浏览 2
提问于2021-10-20
得票数 0
1
回答
spark
中
的
数据类型转换
、
、
、
我有一个列id,它
的
类型是int,但后来更改为bigint。它具有这两种类型
的
值。from
pyspark
.sql.functions import *res1=df.select("id1", "code") res1.show(1, False) 它显示了数据框,但当我尝试对它们执行一些操作时,示例如下:
浏览 107
提问于2021-01-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之数据聚合与分组运算
PySpark,一个大数据处理利器的Python库!
续:比Vlookup好用100倍,Groupby原来是一个超级查找函数
遇见YI算法之初识Pyspark(二)
Python Spark安装及配置步骤
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券