,一个包含训练行,另一个包含测试行
train, test = df[df['is_train']==True], df[df['is_train']==False]
# 显示测试和训练数据帧的观测数...= pd.get_dummies(train["Embarked"], prefix='embarked', drop_first=True)
# 使用单热编码
# 将“已编码”的测试特征转换为虚拟值...去掉第一个类别来防止共线性
test_embarked_dummied = pd.get_dummies(test["Embarked"], prefix='embarked', drop_first=True)
# 将虚拟值的数据帧与主数据帧连接起来...(test["Pclass"], prefix='Pclass', drop_first=True)
# 将虚拟值的数据帧与主数据帧连接起来
train = pd.concat([train, train_Pclass_dummied...# 创建填充器对象
age_imputer = preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0)
# 将填充器对象拟合训练数据