要获取pandas数据帧重复行的聚合统计,可以使用pandas
库中的duplicated()
和groupby()
函数来实现。
首先,使用duplicated()
函数可以找到数据帧中的重复行。该函数返回一个布尔类型的Series,表示每一行是否为重复行。可以将该Series作为筛选条件,从而获取重复行的子集。
接下来,使用groupby()
函数将重复行进行分组,并使用聚合函数(如count()
、sum()
、mean()
等)对每个分组进行统计。这样可以得到每个重复行的聚合统计结果。
下面是一个示例代码:
import pandas as pd
# 创建一个示例数据帧
data = {'A': [1, 2, 3, 1, 2, 3],
'B': ['a', 'b', 'c', 'a', 'b', 'c'],
'C': [10, 20, 30, 40, 50, 60]}
df = pd.DataFrame(data)
# 找到重复行
duplicates = df.duplicated()
# 获取重复行的聚合统计
aggregated_stats = df[duplicates].groupby(['A', 'B']).agg({'C': ['count', 'sum', 'mean']})
print(aggregated_stats)
上述代码中,首先创建了一个示例数据帧df
,包含三列'A'、'B'和'C'。然后使用duplicated()
函数找到重复行,并将结果保存在duplicates
中。接着,使用groupby()
函数按照列'A'和'B'进行分组,并使用agg()
函数对列'C'进行聚合统计,包括计数、求和和平均值。最后,打印出聚合统计结果aggregated_stats
。
这样就可以获取到pandas数据帧重复行的聚合统计信息。
关于pandas的更多信息和使用方法,可以参考腾讯云的相关产品和文档:
以上是关于如何获取pandas数据帧重复行的聚合统计的答案,希望能对您有所帮助。
领取专属 10元无门槛券
手把手带您无忧上云