本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析
环境
win8, python3.7, jupyter notebook
目录
1....泰坦尼克号将乘客分为三个等级: 三等舱位于船身较下层也最便宜; 二等舱具备与当时其他一般船只的头等舱同样的等级, 许多二等舱的乘客原先在其他船只上预定的头等舱, 却因为泰坦尼克号的航行, 将煤炭能源转移给泰坦尼克号...数据概览
本项目提供了两份数据: train.csv文件作为训练集构建与生存相关的模型; 另一份test.csv文件则用作测试集, 用我们构建出来的模型预测生存情况.
2.1 读取数据:
import...用统计模型来预测缺失值, 比如回归模型, 决策树, 随机森林
3. 删除缺失值
4. 保留缺失值
究竟采用处理方式呢, 应当结合具体的场景进行选择....这里不再深究, 现能确定的是它与生存相关.
?