首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

泰坦尼克号生还数据处理

之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。

数据处理

数据情况

这里的数据来源与kaggle上的数据,读者可以自行进行下载,我们通过pandas读取,首先看看数据的基本情况。

我们使用的字段有下面几个:

Survived:是否生还

Pclass:船舱等级

Sex:性别

Age:年龄

SibSp:手足和配偶在船上的数量

Parch:双亲和手足在船上的数量

Fare:费用

Embarked:登船港口

我们把这些字段筛选出来。

缺失值处理

首先,我们看看数据的缺失情况。

这里有两个字段有缺失值,age我们用平均值,embarked我们用最多的值进行填充。

性别和embarked

性别需要换成0和1

embarked进行哑变量

划分数据集

接着我们按0.8划分数据集。

标准化

最后我们把数据进行标准化,这样数据我们就处理完了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190119G07UST00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券