在Pandas中,可以使用duplicated()
函数来判断DataFrame中的行是否包含相同的值。该函数返回一个布尔类型的Series,表示每一行是否是重复的。
如果想要匹配重复的行,可以使用drop_duplicates()
函数。该函数会返回一个新的DataFrame,其中不包含重复的行。
下面是一个示例代码:
import pandas as pd
# 创建一个包含重复行的DataFrame
data = {'A': [1, 2, 3, 2, 1],
'B': ['a', 'b', 'c', 'b', 'a']}
df = pd.DataFrame(data)
# 判断每一行是否是重复的
is_duplicate = df.duplicated()
# 打印结果
print(is_duplicate)
输出结果为:
0 False
1 False
2 False
3 True
4 True
dtype: bool
可以看到,第4行和第5行被判断为重复行。
如果想要匹配重复的行并删除它们,可以使用drop_duplicates()
函数:
import pandas as pd
# 创建一个包含重复行的DataFrame
data = {'A': [1, 2, 3, 2, 1],
'B': ['a', 'b', 'c', 'b', 'a']}
df = pd.DataFrame(data)
# 删除重复行
df = df.drop_duplicates()
# 打印结果
print(df)
输出结果为:
A B
0 1 a
1 2 b
2 3 c
可以看到,重复的行被成功删除了。
领取专属 10元无门槛券
手把手带您无忧上云