如何在pyspark dataframe中不聚合地分组

、、、、

我有一个非常庞大的数据集，我需要使用pyspark dataframe。514 112 80 2020/01/03 我尝试用(product_type，series_no) groupBy这个数据，以得到一组没有聚合的数据组70 2020/01/02 514 112 80 2020/01/03 有没有办法让那些有pyspa

浏览 30提问于2021-01-23得票数 0

回答已采纳

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

Ireland|+-----+--------+ AttributeError: 'DataFrame' object has no attribute 'sum'我该怎么算，或者我少了什么？

浏览 3提问于2017-05-29得票数 1

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsformat('socket')\ .option('por

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

PySpark相当于熊猫的群体分类？

、、、、

在Pandas上，我们可以按一个分类系列进行分组，然后在聚合时，它会显示所有的类别，不管它是否包含任何记录。import pandas as pd cuts = pd.cut# (0, 11] NaN 0# (30, 60] 50.0 2 如您所见我如<em

浏览 13提问于2022-10-24得票数 1

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

2回答

一次聚合一个dataframe的所有列

、、、

我希望在一个列上分组一个dataframe，然后在所有列上应用一个聚合函数。它的R等价值是summarise_all。在R.我不想手动在pyspark中的聚合命令中</em

浏览 1提问于2019-05-22得票数 4

回答已采纳

1回答

将事务分组到嵌套模式中

、、

我希望将存储在pyspark.sql.dataframe.DataFrame "ddf“中的事务按列"key”分组，该列指示事务的来源(在本例中为customer )。分组是一个非常昂贵的过程，因此我想在嵌套模式中将组写入磁盘：如何创建嵌套模式并将其写入磁盘？

浏览 6提问于2016-05-14得票数 0

回答已采纳

1回答

Parquet文件中groupby的最佳实践

、、、

为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。我们知道有一个partition可以提供帮助--但在我们的例子中，我们需要对整个数据集进行分组--

浏览 2提问于2017-07-09得票数 3

2回答

熊猫:有条件的分组计算

、

我希望按键(customer)对行进行分组，并在其列上运行一些聚合器，如sum和mean。在计算组聚合器之后，我想将结果分配回DataFrame中的每个客户行(因为每个行都添加了一些客户范围的特性)。我能看到我能做一些像如果我只想聚合一个列并能够将结果添加回DataFrame。我是否

浏览 5提问于2014-06-16得票数 5

回答已采纳

1回答

火花放电中5分钟窗口的聚集

、、、

12:06 | 3 | 5B | 2016-01-01 12:02 | 8 | 20User | Datetime | amount | length A

浏览 1提问于2016-10-31得票数 3

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

假设这一步骤是必要的，它似乎无休止地运行在16节点4 cpu上，每个cpu的内存为30 16，cpu利用率为100% (4)。见我做错了什么？df_groupby = df.groupby('user_id')aggs只是不同列(如f.sum(f.col(numeric_col))或f.first(f.col(string_col)) )上的聚合函数的列表。此外，仅在b上运

浏览 1提问于2021-01-28得票数 1

1回答

用火花放电写自定义的联非新议程

、、、

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("keybloomfilter = BloomFilter(8, 1) p=bloomfilter return pd.DataFramebloomfilter，类似于

浏览 1提问于2019-04-04得票数 1

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

、、

from pyspark.sql import SparkSession dataframe {'id' : [= spark.createDataFrame(spark_dataframe

浏览 3提问于2020-07-01得票数 1

回答已采纳

1回答

我有一个简单的数据集，其中包含一些空值：10,Mrnull,Mr2, Miss我想用一个不同的列来填充这个分组的聚合值(在本例中是df["Age"] = df.groupby("Title").transform(lambda x: x.fillna(x.mean())) 我试着不使用外部库，并在pyspark中使用本机。python dataframe没有transform方法。我正在考

浏览 4提问于2019-04-24得票数 1

回答已采纳

3回答

熊猫.groupby将返回一个地址

、、

我真的不明白为什么在为“课程”创建一个带有groupby的Dataframe时，我会得到一个入口位置输出？代码：technologies = ({ 'Discount':[1000,2

浏览 22提问于2022-10-22得票数 0

回答已采纳

1回答

Python/Pandas -使用第一个/最后一个函数聚合数据，而不进行分组

、、、

我试着用熊猫来聚合整个数据，而不按任何东西分组。对于不同的列，我确实需要不同的函数，所以我使用字典，不管如何将'first‘或'last’作为聚合函数抛出一个ValueError: no results，而其他如‘min’/‘max’/‘’则没有问题df = pd.DataFrame({'Col1':[1,2,3,4], 'Col2':[5,6,7,8], 'Col3':[9,10,11,

浏览 9提问于2019-12-16得票数 4

2回答

如何将数据从Google PubSub主题流到PySpark* ( Google上)*

、、、

我希望将来自主题的相同数据流到PySpark (RDD或dataframe)中，这样我就可以进行其他流转换，如PySpark中的窗口和聚合，如下面所描述的：。该链接有读取其他流源的文档(如Kafka)，但没有Google PubSub。有没有办法从Google PubSub流到PySpark？

浏览 1提问于2018-09-17得票数 1

1回答

Microsoft Spark聚合方法

、、

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口，我已经设置了DataFrame，但不了解如何以类似的方式使用.Agg，例如： var newDat

浏览 18提问于2021-10-01得票数 0

回答已采纳

2回答

PySpark SQL中的用户定义聚合函数

、、、、

如何在PySpark SQL中实现用户定义的聚合函数？pyspark version = 3.0.2作为一个最小的例子，我想用一个UDAF替换AVG聚合函数：sql= SQLContext(sc) pd.DataFrame({'id': [1, 1, 2, 2], 'value':

浏览 24提问于2021-03-09得票数 4

回答已采纳

1回答

替换pyspark数据帧中的值

、、、

我对pyspark是个新手，正在做我的第一个spark项目，我面临着两个问题。a)无法使用以下方法引用列b)不能将我的spark数据帧中的值替换为聚合值，如meanfrom pyspark import SparkConf, SparkContext from pyspark.sql.functi

浏览 3提问于2017-09-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

PySpark相当于熊猫的群体分类？

PySpark DataFrame:标记某些列值发生更改的行

一次聚合一个dataframe的所有列

将事务分组到嵌套模式中

Parquet文件中groupby的最佳实践

熊猫:有条件的分组计算

火花放电中5分钟窗口的聚集

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

用火花放电写自定义的联非新议程

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

如何使用PySpark使用组的聚合填充空值

熊猫.groupby将返回一个地址

Python/Pandas -使用第一个/最后一个函数聚合数据，而不进行分组

如何将数据从Google PubSub主题流到PySpark* ( Google上)*

Microsoft Spark聚合方法

PySpark SQL中的用户定义聚合函数

替换pyspark数据帧中的值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐