Pandas 是一个强大的 Python 数据分析库,提供了大量用于操作和分析数据的工具。在 Pandas 中,合并数据通常使用 merge()
函数或者 concat()
函数。当需要合并具有重复行的数据,并且只保留特定列时,可以使用 merge()
函数结合 drop_duplicates()
方法。
merge()
函数允许用户根据多个条件进行数据合并,并且可以指定要保留的列。drop_duplicates()
方法可以帮助去除数据中的重复行,只保留第一次出现的行。在数据分析中,经常需要合并来自不同数据源的数据,并且只保留特定的列。例如,在处理销售数据时,可能需要合并客户信息和订单信息,但只关心客户的姓名和订单的金额。
假设我们有两个 DataFrame,一个是客户信息 customers
,另一个是订单信息 orders
,我们想要合并这两个 DataFrame,并且只保留客户的 ID
和订单的 Amount
列。
import pandas as pd
# 创建示例数据
data_customers = {
'ID': [1, 2, 3],
'Name': ['Alice', 'Bob', 'Charlie']
}
data_orders = {
'ID': [1, 2, 2, 3],
'Amount': [100, 200, 150, 300]
}
customers = pd.DataFrame(data_customers)
orders = pd.DataFrame(data_orders)
# 指定多列合并
merged_df = pd.merge(customers, orders, on='ID', how='inner')
# 去除重复行,只保留特定列
result_df = merged_df[['ID', 'Amount']].drop_duplicates()
print(result_df)
pd.merge()
函数根据共同的列(例如 ID
)合并两个 DataFrame。drop_duplicates()
方法去除重复行。通过以上步骤,你可以有效地合并两个 DataFrame 并保留特定的列,同时去除重复行。
领取专属 10元无门槛券
手把手带您无忧上云