在pandas dataframe中,可以使用duplicated()
函数来判断行中的值是否重新出现在dataframe中,并根据结果创建新列。
具体步骤如下:
import pandas as pd
data = {'A': [1, 2, 3, 4, 5],
'B': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)
duplicated()
函数判断行中的值是否重新出现,并创建新列:df['IsDuplicated'] = df.duplicated()
这样,新的列IsDuplicated
将会被添加到dataframe中,其中值为True表示该行的值在dataframe中已经出现过,值为False表示该行的值在dataframe中是首次出现。
示例结果如下:
A B IsDuplicated
0 1 1 False
1 2 2 False
2 3 3 False
3 4 4 False
4 5 5 False
这个功能在数据清洗和数据分析中非常有用,可以帮助我们识别和处理重复的数据。
领取专属 10元无门槛券
手把手带您无忧上云