在Python Pandas中,可以使用duplicated()
函数来判断DataFrame中的重复值。然后,可以使用条件判断语句和np.where()
函数来根据重复值添加新列。
以下是完善且全面的答案:
在Python Pandas中,可以使用以下步骤来根据现有的两列重复值添加新列:
import pandas as pd
import numpy as np
data = {'A': [1, 2, 3, 4, 4],
'B': [5, 6, 7, 7, 8]}
df = pd.DataFrame(data)
duplicated()
函数判断DataFrame中的重复值,并将结果保存在新列is_duplicate
中:df['is_duplicate'] = df.duplicated()
np.where()
函数根据重复值添加新列new_column
:df['new_column'] = np.where(df['is_duplicate'], '重复', '不重复')
完整的代码示例:
import pandas as pd
import numpy as np
# 创建DataFrame示例
data = {'A': [1, 2, 3, 4, 4],
'B': [5, 6, 7, 7, 8]}
df = pd.DataFrame(data)
# 判断重复值
df['is_duplicate'] = df.duplicated()
# 根据重复值添加新列
df['new_column'] = np.where(df['is_duplicate'], '重复', '不重复')
print(df)
运行结果:
A B is_duplicate new_column
0 1 5 False 不重复
1 2 6 False 不重复
2 3 7 False 不重复
3 4 7 False 不重复
4 4 8 True 重复
这样就根据现有的两列重复值成功添加了新列new_column
,并标记了重复和非重复的行。
推荐的腾讯云相关产品:腾讯云数据库(TencentDB)
产品介绍链接地址:腾讯云数据库(TencentDB)
领取专属 10元无门槛券
手把手带您无忧上云