腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
groupBy
案例
、
|B |2007-01-10 |1 |+-----------+-------+--------+---------+--------+---------+----+--------+ from
pyspark
.sql.functionsimport when, year, month, sum new_sdf = cat_sdf.
groupBy
浏览 15
提问于2021-10-19
得票数 0
回答已采纳
1
回答
PySpark
:
Groupby
的
案例
、
、
--+#| A| 6| 1|#+---+-----+----------+valueWhenTrue = 1 "currentVersion
浏览 3
提问于2022-05-31
得票数 0
回答已采纳
1
回答
火花工作者与致命的Python错误:无法到达的C代码路径崩溃。Python运行时状态:初始化
、
、
、
/
groupby
.py", line 1044 in <lambda>File "/usr/local/lib/python3.8/
浏览 6
提问于2022-01-20
得票数 0
回答已采纳
1
回答
如何将变量传递给UDAF (自定义聚合函数)
、
import pandas as pdfrom
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functions import PandasUDFType, pandas_udfimportprint(data_frame.schema) validation_period = reque
浏览 5
提问于2020-09-21
得票数 0
2
回答
不带聚合或计数的
Pyspark
groupBy
DataFrame
、
、
它可以在没有聚合或计数的情况下遍历
Pyspark
groupBy
数据帧吗?. Is there a difference in how to iterate
groupby
in
Pyspark
or have to use aggregation
浏览 54
提问于2020-01-07
得票数 3
回答已采纳
2
回答
如何合并重复行并将所有False值更改为True,其中True是重复行中的值?
、
、
所以我有一个数据帧,它有很多副本,但问题是它们是这样的- Color ID2 True 1234564 False 09870 987 True 1 123456 True 但我希望对每一列都这样做,而不是只针对一列(在本例中是Color)。
浏览 22
提问于2019-12-25
得票数 0
回答已采纳
3
回答
将
pyspark
groupedData对象转换为spark Dataframe
我必须在
pyspark
数据帧上进行2级分组。我的试探性的:grouped_df.
groupby
(["C"]).count()'GroupedData' object has no attribute '
groupby
' 我想我应该首先将分组的对象转换为
pySpark
DF。
浏览 2
提问于2017-10-18
得票数 7
回答已采纳
1
回答
GroupBy
in
PySpark
与群熊猫
、
、
我找不到熊猫.
groupby
()和
PySpark
.
groupBy
()之间的区别(用在DataFrame上)。有什么不同吗?我也得到了同样的结果。如果有差异,我如何知道什么时候使用它,以防我同时处理
PySpark
。谢谢!
浏览 5
提问于2022-07-05
得票数 0
回答已采纳
1
回答
PySpark
中是否有相当于Pandas聚合函数的任何函数?
、
、
、
我想把下面的熊猫代码翻译成
PySpark
代码 newCol3 = ('colD', 'any')).reset_index()import
p
浏览 5
提问于2019-11-25
得票数 0
回答已采纳
1
回答
分组依据列表中的元素
、
、
我是
PySpark
的新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来
groupBy
我的数据帧 +-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
Pandas的MultiIndex操作是否等同于set_index()或un堆栈()?
、
、
、
、
我有一个火花DataFrame,就像:| id| timeSlot| ratio||100| lunch| 0.2||100| dinner| 0.5||101| lunch| 0.2||102| lunch| 0.4||102| dinner| 0.3| +---
浏览 2
提问于2020-06-22
得票数 2
回答已采纳
2
回答
如何从
PySpark
中的2列中获得一行序列字符串?
、
、
、
、
例如,“新”栏如下:有使用
PySpark
的好方法吗?我使用
PySpark
尝试了以下udf代码,但它不起作用:from
pyspark
.sql.functions importarray_distinct create_transition = udf(lambda x:"->".join
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
1
回答
从Pandas
groupBy
到
PySpark
groupBy
、
、
目标是对其执行
groupBy
操作,而不将其转换为Pandas DataFrame。等价的Pandas
groupBy
代码如下所示: return pd.Series({ 'col_1',]).apply(compute_metrics).reset_index() 我打算用
PySpark
来写这个。到目前为止,我
浏览 5
提问于2017-03-14
得票数 4
回答已采纳
1
回答
映射函数在lambda函数中不可调用。
、
、
import
pyspark
from
pyspark
.sql.types import MapType, StringTypefrom
pyspark
.sql.functions import col words
浏览 7
提问于2022-07-19
得票数 0
2
回答
Pyspark
将列列表放入聚合函数
、
、
、
我有一个关于
Pyspark
中的udf的问题和一个具体的
案例
。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。) df = dataframe.
groupby
(grouping).min(aggregation) df = dataframe.
groupby
(grouping).max(aggregation) elif functions == count:df =
浏览 60
提问于2020-11-26
得票数 0
回答已采纳
1
回答
itertools.
groupby
在火花放电中的应用
、
、
我使用itertools.
groupby
编写了一个映射函数来聚合数据,我所做的如下所示。pair_func_cnt(iterable))映射函数 from itertools import
groupby
ls = [[1,2,3],[1,2,5],[1,3,5],[2,4,6]] grp2 = [(k,g
浏览 2
提问于2016-08-05
得票数 0
1
回答
在
pyspark
中的情况下的总和
、
我正在尝试将hql脚本转换为
pyspark
。我正在努力在
groupby
子句之后的聚合中实现case when语句的总和。例如: SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在
pyspark
中是可能的吗?
浏览 0
提问于2016-11-23
得票数 1
回答已采纳
1
回答
带点‘’的dataframe的
pyspark
访问列。
、
、
包含点的
pyspark
数据帧(例如"id.orig_h")将不允许
groupby
by,除非首先由withColumnRenamed重命名。有解决方法吗?"`a.b`"似乎不能解决这个问题。
浏览 1
提问于2016-05-16
得票数 4
1
回答
Dataframe中新列的
PySpark
1.5组和
、
、
、
、
我试图使用
groupBy
和sum (使用
PySpark
1.5)在中创建一个新列(“
PySpark
”)。我的数字列已被转换为长列或双列。用来形成
groupBy
的列是字符串和时间戳。我的代码如下我对错误的追踪到了那一行
浏览 2
提问于2016-03-07
得票数 2
回答已采纳
3
回答
向
PySpark
数据帧中添加组计数列
、
、
我来自R和到
PySpark
,因为它的出色的火花处理,我正在努力从一个上下文映射到另一个特定的概念。在
PySpark
中,我可以做一些几乎同样简单的事情,如果我要查看,根据行数概括:from
pyspark
.sql.functionsimport col .
groupBy
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
pandas的groupby问题
PySpark数据分析基础:PySpark原理详解
pyspark 安装
PySpark调优
PySpark安装+Jupyter Notebook配置
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券