df group by 2列，n.largest在第3列

df.groupby() 是 pandas 库中的一个方法，用于根据一个或多个列的值将数据分组。n.largest() 是 pandas 库中的另一个方法，用于获取 DataFrame 中最大的 n 行。

基础概念

groupby: 根据一个或多个列的值对数据进行分组。
n.largest: 获取 DataFrame 中最大的 n 行。

类型

单列分组: 根据单一列的值进行分组。
多列分组: 根据两个或多个列的值进行分组。

应用场景

数据分析: 对数据进行分组统计，如计算每个分组的平均值、总和等。
数据筛选: 找出每个分组中特定条件下的最大或最小值。

示例代码

假设我们有一个 DataFrame df，它包含三列：'A', 'B', 'C'。我们想要根据列 'A' 和 'B' 进行分组，并找出每个分组中列 'C' 最大的两行。

import pandas as pd

# 假设 df 是如下 DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8]
}
df = pd.DataFrame(data)

# 使用 groupby 和 n.largest
result = df.groupby(['A', 'B']).apply(lambda x: x.nlargest(2, 'C'))

print(result)

可能遇到的问题及解决方法

问题：分组后数据丢失

原因: 当使用 apply 函数时，如果分组后的数据量很大，可能会导致内存不足或者处理时间过长。

解决方法:

优化分组逻辑: 尽量减少分组的数量或者分组的粒度。
增加内存: 如果可能，增加系统的可用内存。
使用更高效的方法: 例如，可以先计算每个分组的最大值，然后再进行筛选。

# 先计算每个分组的最大值
group_max = df.groupby(['A', 'B'])['C'].nlargest(2).reset_index()

# 再筛选出原始 DataFrame 中对应的行
result = df[df[['A', 'B', 'C']].apply(tuple, axis=1).isin(group_max.apply(tuple, axis=1))]

print(result)

参考链接

请注意，以上代码和解释是基于 pandas 库的，如果你在使用其他数据处理库，可能需要调整方法。

df group by 2列，n.largest在第3列

、、

我有个问题，这是我的df {'libelle_competence': {0: 'Accessoires automobile', 2:55.23925685283866}} 我想按Familles、professionnelles和libelle_competence进行分组，并将流行度%列与n最大( 10 )进行排序(只为了保持前10位的libelle能力) df.groupby下面是我的df的样子： ? 这个想

浏览 63提问于2021-11-17得票数 1

回答已采纳

1回答

如何使用对Case- on语句应用多个条件

、、、

我试图使用withColumn语句在Spark Dataframe API中向现有的数据框架中添加一个新列。下面的代码可以工作，但我想知道是否有一种方法可以选择多个组。假设第1组、第2组、第3组、第4组，而不仅仅是第1组，我想我可以写四遍when语句。我在一些帖子里见过这样的人。然而，在R中，有一个%in%操作符可以指定变量是否包含向量中的值，但我不知道在Spark中是否存在这样的东西。我查看了Spark文档，但大多数函数都不包含任何

浏览 3提问于2015-08-12得票数 3

回答已采纳

1回答

根据非定向的列组合选择行。

、、、

])df <- subset(df, subset = group1!=group2)df group1 group20.666083758 10

浏览 2提问于2017-03-24得票数 0

回答已采纳

1回答

ggplot:对多行进行分组和绘制，但单独处理

、、、

我有这样的数据: df_long：1970 Argentina 201980 Australia 12我做了这个：geom_line(aes(colour = variable, group = varia

浏览 1提问于2021-02-04得票数 0

回答已采纳

1回答

“在保留模式的同时？

、、

在缺少值的索引处。所有其他的“南”都应该保留为“南”。因为它们稍后会一起删除，所以我也不想放弃那些缺少值的地方。(N是总索引号)我该怎么做？N-2 Nan N Nan df.dropna()此代码将数据帧中的所有

浏览 2提问于2022-02-23得票数 0

回答已采纳

3回答

Java排序逻辑与识别两个对象的最大值

、、、

要求在部门2中找到第8组的最新员工对象(最新日期)，在第2部门中有第4组。同样，在部门1中的第8组和第1部门的第4组中，我只需要最后列表中所有这些中的最新一个对象。("1", new Group(8))), ne

浏览 6提问于2020-09-12得票数 3

回答已采纳

3回答

为什么case_when()要计算假条件？

、

df<-data.frame(group=c(1,1,2,2,3,3),a=as.integer(c(1,2,NA,NA,1,NA)))

浏览 0提问于2021-06-03得票数 1

回答已采纳

1回答

如何根据条件将一些列从dataframe合并到另一个列

我有两个数据文件: df2 1和df2 A 24952 A 56829677(text="group n1 n2 n3 n4 B 51236 0 57911 0.1 d

浏览 2提问于2017-06-13得票数 0

回答已采纳

2回答

根据另一列(R)的计数删除组

、

我有一个数据，我只想保留至少有2箱汽车和另一组产出的组将至少有2箱无车：Car = c(1,1,0,0,0,0,1,0,0,0) # 1 = Have car, 0 = No car<e

浏览 0提问于2019-03-29得票数 1

回答已采纳

2回答

R‘`unique`’总是以相同的顺序返回值吗？

、

愚蠢的例子：res <- unlist(lapply(unique(df$group), function(x) mean(subset(df, group==x)$value)))res会永远是吗？R S T U V W

浏览 0提问于2016-04-04得票数 12

回答已采纳

3回答

按组计算列中每个元素的数目。

、

, id_group){ x <- function(dat) { p = test$p.value, col <unique(dat[[x[2]]

浏览 5提问于2021-08-13得票数 0

回答已采纳

1回答

如何在不影响R中某些列的情况下进行聚合？

、、

我试图通过计算数据集中每15行的平均值来压缩数据，方法如下：aggregate(df[c("columnC", "ColumnD")],list(rep(1:(nrow(df)%/%n+1),each=n,len=nrow(df))),mean)[-1]15 Sunday Night 25.

浏览 0提问于2018-03-23得票数 0

回答已采纳

1回答

Python :更新dataframe中的值

、

问题是:第3行和第4行代码正在替换先前更新的代码(前两行)：Level=>以前更新为"L1“=>，改为”非L1“ df.loc[(df.Group == 'India') & ((df.Circle == 'Andhra Pradesh') | (df.Circle == 'Chennai

浏览 2提问于2019-01-03得票数 2

回答已采纳

2回答

R dataframe :查找列1中对应于第2列项的元素列表

、

说我有数据我想做的是：任何帮助都将不胜感激。

浏览 0提问于2018-02-08得票数 0

回答已采纳

1回答

熊猫-通过检查同一数据帧的其他行的条件来派生新列的最佳方法

、、

这是我的数据df["GroupType"] = ["Group_1","Group_2","Group_3","Group_1","Group_2","Group例如，上面第9行是第10行和第11行的匹配'Gro

浏览 2提问于2021-09-29得票数 2

回答已采纳

2回答

基于组内对的筛选- if值表示在末尾。

、、、、

Group Code 1 2 1 1 2 1 2 3 21在每一组中都有对。例如，在第1组中，对是(2,2)，(2,4)，(4,1) df[df.

浏览 4提问于2021-09-01得票数 2

回答已采纳

1回答

在R中的dplyr中添加`group_by()中的计算列的问题

、、

我将数据从这个图像传递给一个函数multi_bar(dt) df=dt[,c(1,i)

浏览 0提问于2022-01-03得票数 -1

1回答

快速查找数据帧组中是否存在某个值的方法

、

我想知道元素是否发生在数据帧的组中，然后在组中的每一行标记为1(如果发生)，如果没有出现，则标记为0。 group它应该是这样的： group value hasValue 1 1 1

浏览 1提问于2015-07-31得票数 0

回答已采纳

2回答

Pandas:尝试使用long-int值创建新的df列时的OverflowError

、、

183144058824253894513539088231878865676我想要转换它，使第0我可以通过以下代码在没有组id (类型为long且保持不变)的情况下完成此操作： pd.DataFrame({"LinkedBy": df['NAME'].iloc[0],"By_Id": df['ID'].iloc[0],&

浏览 1提问于2016-09-15得票数 1

1回答

被窃听的DataFrame切片？

、、

假设我有一个熊猫数据，df包含一个'Group‘Id (当然，在一个组中可以有许多对象)和一个数量，比如'R’。我想要构造另一个由至少4个物体组成的df，按R排序的第4个对象的值低于R_min (我知道称为最大值'R_min‘听起来很奇怪，但它们是星系的星等，它们是负的，越低越亮--或者绝对值越高越亮)。) })我的问题的解决办法是这个问题，它似乎非常有效：df_processed = (df[<e

浏览 2提问于2017-01-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

df group by 2列，n.largest在第3列

基础概念

相关优势

类型

应用场景

示例代码

可能遇到的问题及解决方法

问题：分组后数据丢失

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐