可以通过以下步骤实现:
import pandas as pd
import re
data = {'日期': ['2021-01-01', '2021年1月2日', '2021/01/03', '2021-01-04']}
df = pd.DataFrame(data)
def convert_date_format(date):
if re.match(r'\d{4}-\d{2}-\d{2}', date):
return pd.to_datetime(date)
elif re.match(r'\d{4}年\d{1,2}月\d{1,2}日', date):
return pd.to_datetime(date, format='%Y年%m月%d日')
elif re.match(r'\d{4}/\d{2}/\d{2}', date):
return pd.to_datetime(date, format='%Y/%m/%d')
else:
return None
df['日期'] = df['日期'].apply(convert_date_format)
df.dropna(inplace=True)
至此,数据帧df的日期列中的不一致的日期格式已被清除。
请注意,这只是一个示例答案,实际场景中可能会有更多不同的日期格式需要处理。此外,对于复杂的日期格式转换,可能需要使用更高级的技巧和正则表达式。在实际应用中,可以根据具体的需求进行调整和修改。
领取专属 10元无门槛券
手把手带您无忧上云