腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6640)
视频
沙龙
1
回答
如
何在
pyspark
dataframe
中
不
聚合
地
分组
、
、
、
、
我有一个非常庞大的数据集,我需要使用
pyspark
dataframe
。514 112 80 2020/01/03 我尝试用(product_type,series_no) groupBy这个数据,以得到一组没有
聚合
的数据组70 2020/01/02 514 112 80 2020/01/03 有没有办法让那些有
pyspa
浏览 30
提问于2021-01-23
得票数 0
回答已采纳
1
回答
当sum()列时,我得到错误AttributeError:'
DataFrame
‘对象没有属性'sum’
、
、
Ireland|+-----+--------+ AttributeError: '
DataFrame
' object has no attribute 'sum'我该怎么算,或者我少了什么?
浏览 3
提问于2017-05-29
得票数 1
1
回答
使用套接字的火花结构化流,设置模式,在控制台中显示
DATAFRAME
、
、
、
如
何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsformat('socket')\ .option('por
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
PySpark
相当于熊猫的群体分类?
、
、
、
、
在Pandas上,我们可以按一个分类系列进行
分组
,然后在
聚合
时,它会显示所有的类别,不管它是否包含任何记录。import pandas as pd cuts = pd.cut# (0, 11] NaN 0# (30, 60] 50.0 2
如
您所见我如<em
浏览 13
提问于2022-10-24
得票数 1
回答已采纳
1
回答
PySpark
DataFrame
:标记某些列值发生更改的行
、
、
、
我有一个包含'people‘和'timestamp’列的
PySpark
DataFrame
(加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行
分组
,其中“时间戳”的差异
不
超过“阈值”值(例如5分钟)。感谢你的想法!
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
2
回答
一次
聚合
一个
dataframe
的所有列
、
、
、
我希望在一个列上
分组
一个
dataframe
,然后在所有列上应用一个
聚合
函数。它的R等价值是summarise_all。在R.我不想手动在
pyspark
中
的
聚合
命令
中</em
浏览 1
提问于2019-05-22
得票数 4
回答已采纳
1
回答
将事务
分组
到嵌套模式
中
、
、
我希望将存储在
pyspark
.sql.
dataframe
.
DataFrame
"ddf“
中
的事务按列"key”
分组
,该列指示事务的来源(在本例
中
为customer )。
分组
是一个非常昂贵的过程,因此我想在嵌套模式中将组写入磁盘:如何创建嵌套模式并将其写入磁盘?
浏览 6
提问于2016-05-14
得票数 0
回答已采纳
1
回答
Parquet文件
中
groupby的最佳实践
、
、
、
为了生成一个count
聚合
,我们需要对几个列进行
分组
。我们目前的战略是: 读取Parquet文件(Dask或
pyspark
),并在
dataframe
的索引上运行groupby。我们知道有一个partition可以提供帮助--但在我们的例子
中
,我们需要对整个数据集进行
分组
--
浏览 2
提问于2017-07-09
得票数 3
2
回答
熊猫:有条件的
分组
计算
、
我希望按键(customer)对行进行
分组
,并在其列上运行一些
聚合
器,
如
sum和mean。在计算组
聚合
器之后,我想将结果分配回
DataFrame
中
的每个客户行(因为每个行都添加了一些客户范围的特性)。我能看到我能做一些像如果我只想
聚合
一个列并能够将结果添加回
DataFrame
。我是否
浏览 5
提问于2014-06-16
得票数 5
回答已采纳
1
回答
火花放电
中
5分钟窗口的聚集
、
、
、
12:06 | 3 | 5B | 2016-01-01 12:02 | 8 | 20User | Datetime | amount | length A
浏览 1
提问于2016-10-31
得票数 3
回答已采纳
1
回答
与单独运行相比,具有多个
聚合
的吡火花旋转数据要长/冻结得多。
、
、
假设这一步骤是必要的,它似乎无休止
地
运行在16节点4 cpu上,每个cpu的内存为30 16,cpu利用率为100% (4)。见 我做错了什么?df_groupby = df.groupby('user_id')aggs只是不同列(
如
f.sum(f.col(numeric_col))或f.first(f.col(string_col)) )上的
聚合
函数的列表。此外,仅在b上运
浏览 1
提问于2021-01-28
得票数 1
1
回答
用火花放电写自定义的联非新议程
、
、
、
我需要编写一个自定义的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程的最后一部分所示,我提出了以下函数 StructField("keybloomfilter = BloomFilter(8, 1) p=bloomfilter return pd.
DataFrame
bloomfilter,类似于
浏览 1
提问于2019-04-04
得票数 1
1
回答
使一个函数成为.agg()在groupBy语句中的组件,将生成一个AssertionError
、
、
from
pyspark
.sql import SparkSession
dataframe
{'id' : [= spark.createDataFrame(spark_
dataframe
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
1
回答
如何使用
PySpark
使用组的
聚合
填充空值
、
、
我有一个简单的数据集,其中包含一些空值:10,Mrnull,Mr2, Miss我想用一个不同的列来填充这个
分组
的
聚合
值(在本例
中
是df["Age"] = df.groupby("Title").transform(lambda x: x.fillna(x.mean())) 我试着不使用外部库,并在
pyspark
中使用本机。python
dataframe
没有transform方法。我正在考
浏览 4
提问于2019-04-24
得票数 1
回答已采纳
3
回答
熊猫.groupby将返回一个地址
、
、
我真的不明白为什么在为“课程”创建一个带有groupby的
Dataframe
时,我会得到一个入口位置输出?代码:technologies = ({ 'Discount':[1000,2
浏览 22
提问于2022-10-22
得票数 0
回答已采纳
1
回答
Python/Pandas -使用第一个/最后一个函数
聚合
数据,而不进行
分组
、
、
、
我试着用熊猫来
聚合
整个数据,而
不
按任何东西
分组
。对于不同的列,我确实需要不同的函数,所以我使用字典,不管如何将'first‘或'last’作为
聚合
函数抛出一个ValueError: no results,而其他
如
‘min’/‘max’/‘’则没有问题df = pd.
DataFrame
({'Col1':[1,2,3,4], 'Col2':[5,6,7,8], 'Col3':[9,10,11,
浏览 9
提问于2019-12-16
得票数 4
2
回答
如何将数据从Google PubSub主题流到
PySpark
( Google上)
、
、
、
我希望将来自主题的相同数据流到
PySpark
(RDD或
dataframe
)
中
,这样我就可以进行其他流转换,
如
PySpark
中
的窗口和
聚合
,如下面所描述的:。该链接有读取其他流源的文档(
如
Kafka),但没有Google PubSub。有没有办法从Google PubSub流到
PySpark
?
浏览 1
提问于2018-09-17
得票数 1
1
回答
Microsoft Spark
聚合
方法
、
、
我正在使用Microsoft.Spark Spark API并将GroupBy应用于
DataFrame
对象。我想在
分组
后将Agg应用于多个列。在
pyspark
中
,我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口,我已经设置了
DataFrame
,但不了解如何以类似的方式使用.Agg,例如: var newDat
浏览 18
提问于2021-10-01
得票数 0
回答已采纳
2
回答
PySpark
SQL
中
的用户定义
聚合
函数
、
、
、
、
如
何在
PySpark
SQL
中
实现用户定义的
聚合
函数?
pyspark
version = 3.0.2作为一个最小的例子,我想用一个UDAF替换AVG
聚合
函数:sql= SQLContext(sc) pd.
DataFrame
({'id': [1, 1, 2, 2], 'value':
浏览 24
提问于2021-03-09
得票数 4
回答已采纳
1
回答
替换
pyspark
数据帧
中
的值
、
、
、
我对
pyspark
是个新手,正在做我的第一个spark项目,我面临着两个问题。a)无法使用以下方法引用列b)不能将我的spark数据帧
中
的值替换为
聚合
值,
如
meanfrom
pyspark
import SparkConf, SparkContext from
pyspark
.sql.functi
浏览 3
提问于2017-09-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
一个Python大数据处理利器:PySpark入门指南
PySpark,一个大数据处理利器的Python库!
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券