首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

预测泰坦尼克号的生存

模型出错了,请稍后重试~

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

泰坦尼克号生存预测入门

增加特征Sex和Embarked 上面效果不好,增加一些特征 增加特征Sex和Embarked,查看对预测影响 这两个特征为字符串,需要转成数字 print(pd.value_counts(data_train.loc...0.5723905723905723 模型准确率: 0.5196408529741863 交叉验证参数 shuffle = False,正确率相比于上面缺少特征Sex和Embarked时,提高了不少,好特征对预测结果提升很有帮助...选择随机森林调参 从上面可以看出随机森林模型预测效果最好,使用该模型,进行调参 features = ["Pclass","Age","SibSp","Parch","Fare","Embarked"...0.7890 5折数据集,30棵决策树,模型准确率:0.8013 10折数据集,30棵决策树,模型准确率:0.8081 15折数据集,30棵决策树,模型准确率:0.8193 最后一种参数下,随机森林模型预测效果最好...["Age"].median()) 缺失数据填补(均值、最大值、根据别的特征分段填充等) 性别等字符串特征数字化 选取特征,初步预测 不断加入新特征预测 选定较好模型,再调整这些模型参数,选出最好模型参数

48320

泰坦尼克号生存预测(2)

泰坦尼克号生存预测(2) 0.说在前面 1.数据预处理 2.特征选择 3.模型选择 4.结果上传 5.总结 6.作者的话 0.说在前面 昨天写了一篇有关leetcode刷题文章,今天接着上次kaggle...这里放上上一节(泰坦尼克号生存预测(1))地址: https://mp.weixin.qq.com/s/7pR1wqPaRl6RGApblJ-fJA 1.数据预处理 【客舱号与生存】 Cabin表示客舱号...21 E 22 F 8 G 3 NA 488 Name: Survived, dtype: int64 接着,数据处理完了,我们是时候可视化数据,并确定该特征值与生存关系...【兄弟姐妹与生存】 SibSp 兄弟姐妹数或配偶数 Parch 父母数或子女数 将其与Parch 合并处理!...= 'sqrt',min_samples_leaf=1) rf_.fit(X_train_, Y_train_) rf_.score(X_test_,Y_test_) 4.结果上传 首先通过上述建立模型进行预测

49710
  • 泰坦尼克号生存预测(1)

    泰坦尼克号生存预测(1) 0.说在前面1.数据预处理2.作者的话 0.说在前面 有几天没更新机器学习了,我终于来更新了,对,你今天看到就是机器学习系列内容!...昨天周末,有点时间,就来玩了一下kaggle上面的经典比赛---泰坦尼克号生存预测问题!...在接下来几篇文章中,我将给大家介绍学习Kaggle比赛一个完整流程,今天先来带大家一起学习一下泰坦尼克号数据预处理部分。...对比这个数据,得出如下结论: 对于不同名字开头,他生存率不同,这里根据存活率平均程度高低依次下分。...同理,我们发现票前面数字编号对生存也是有影响! 这里对不同票编号封装成函数,进行处理!

    56720

    经典中经典--泰坦尼克号乘客生存预测

    titanic乘客生存预测是数据挖掘入门级实例,根据船上乘客多维特征预测事故发生后乘客生还几率,属于监督学习中典型分类问题。本文结合对数据挖掘流程理解和经典案列,呈现数据挖掘过程。...二、数据探索、数据预处理、特征工程 数据探索过程要求有很高数据嗅觉,根据数据分布和相关性分析快速做好特征工程和模型构建。...将Pclass三个取值做成标签变量,并删除train和test中class_3变量,因为它幸存率太低。...()函数去预测X_test数据,最后用拟合结果去给模型打分,逻辑回归模型准确率是0.808。...Y_train) Y_pred = random_forest.predict(X_test) # 模型打分 random_forest.score(X_train, Y_train) 最后得出数据集预测结果

    1.9K30

    用sklearn机器学习预测泰坦尼克号生存概率

    3)生存概率和年龄有关系吗? 4)生存概率会不会收到家庭成员多少影响? 二、数据理解、准备 2.1 数据查看、合并 ?...我们发现测试数据集比训练数据集少一行是因为少了survive,这个参数是最后需要和预测数据集比对查看正确率,所以会缺失。...发现方框内几列呈现正负相关性非常强 ? 于是乎我们组合这几列27个影响因子。 六、准备数据 ? 这里要清楚特征是我们提取影响生存因素,标签是生存数。 预测数据集在891行之后要进行区分。...输入model.score(test_x,test_y) 输入测试特征和标签进行评估分数 8.2 用模型进行预测,并按要求输出 将前面准备预测数据特征pre_x,用模型predict方法预测生存数据...提交后我们就会看到我们排名和成绩 ? 泰坦尼克号这个competition很适合机器学习入门,大家可以自己动手实操起来,看着鸭哥刚开始给思维导图操练起来吧!

    1.2K51

    Kaggle经典数据分析项目:泰坦尼克号生存预测

    其中泰坦尼克号生存预测作为最经典启蒙数据分析项目,对于初学者来说是应该是最合适了,后面将分享更多进阶数据分析项目。...https://mp.weixin.qq.com/s/-fzQIlZRig0hqSm7GeI_Bw 全文如下: 本文结合泰坦尼克号生存预测,从1.数据探索(数据可视化),2.数据预处理,3.模型训练,4...这里我们可以看出女性生存率远大于男性,这也很符合电影情节。...贵仓位自然有更高生存率 ,不然我花这冤枉钱干嘛,生死面前不是人人平等。...数据预处理 2.1 拼接数据集 首先我们讲训练集中Survived特征提取出来,这是我们需要预测目标函数,这部分也是train_data和test_data不同点,接着我们可以讲训练集和测试集数据拼接起来一起进行数据预处理

    2.5K21

    Kaggle泰坦尼克号船难--逻辑回归预测生存

    notebook Win 10基于Python 3.6安装IPython Notebook 三、题意分析 train.csv中有891条泰坦尼克号乘客数据,包括这些乘客一些特征与获救情况。...test.csv中有418条乘客数据,包括这些乘客一些特征但不包括获救情况。 根据train.csv中乘客特征与获救情况,预测test.csv中乘客获救概率。 四、数据分析 1....(二)交叉验证 交叉验证通常是把train.csv分成两部分,一部分用于训练模型,另外一部分数据用来预测结果,然后将预测结果与实际结果比较,这样就能知道模型预测效果。...一开始我们模型往往是欠拟合,也正是因为如此才有了优化空间,我们需要不断调整算法来使得模型预测能力变得更强。但是优化到了一定程度可能会产生过拟合问题,这时就需要解决过拟合问题了。...可以看到,预测准确度略有提升。 虽然提升不多,但是模型融合思路是初学者必须掌握

    3.5K41

    泰坦尼克号幸存预测

    本次项目主要围绕Kaggle上比赛题目: "给出泰坦尼克号乘客信息, 预测乘客是否幸存" 进行数据分析 环境 win8, python3.7, jupyter notebook 目录 1....泰坦尼克号将乘客分为三个等级: 三等舱位于船身较下层也最便宜; 二等舱具备与当时其他一般船只头等舱同样等级, 许多二等舱乘客原先在其他船只上预定头等舱, 却因为泰坦尼克号航行, 将煤炭能源转移给泰坦尼克号...数据概览 本项目提供了两份数据: train.csv文件作为训练集构建与生存相关模型; 另一份test.csv文件则用作测试集, 用我们构建出来模型预测生存情况. 2.1 读取数据: import...用统计模型来预测缺失值, 比如回归模型, 决策树, 随机森林 3. 删除缺失值 4. 保留缺失值 究竟采用处理方式呢, 应当结合具体场景进行选择....这里不再深究, 现能确定是它与生存相关. ?

    1.2K21

    项目实战二:利用Python实现Kaggle经典案例之泰坦尼克号乘客生存预测

    上次讲了利用Python实现波士顿房价预测回归模型,这时小明一脸懵逼,心想回归模型是什么鬼??️?...(咳咳,敲黑板~科普一下,在机器学习中,根据目标变量(因变量)是否是连续值可以分为回归和分类两种模型)本次就进行一个简单二分类模型介绍——泰坦尼克号乘客生存预测。...首先还是先导入接下来要用到Python包 然后导入数据集,因为本次用到数据集我已预保存到本地电脑,直接读取数据进来即可(数据集下载链接https://www.kaggle.com/c/titanic...,得到一个新特征替换原来特征,这样可能对获救乘客影响比原来特征强(老shi,你怎么这么机智又逗逼,让我好嫉妒啊,哈哈~) 然后我们把没有用特征先剔除再对分类特征数值化后再喂到模型中去 到此数据预处理及特征工程已经简单处理完毕...接下来我们还是按照一开始方式进行数据划分,前面891条是训练集,最后418条是测试集 终于到最鸡冻时刻啦?,我们把数据喂到逻辑回归模型(虽然叫回归,但其实是个分类模型,挂羊头卖狗肉懂吗?!)

    1.1K21

    泰坦尼克号生还率预测

    ,比如:姓名、船票编号、船舱编号、在哪里上船等,但是要用姓名来进行预测,所以要保留,而在哪里上船(embarked)也暂时保留,用它学个新知识,正常训练删掉就可 可以先把要保留字段做成一个列表,然后再把列表保留出来...', 'fare:买票费用' yichen_data = [1,'yichen','3','male',22,0,2,32.7] 是否生还这一项,预测时候就不用了,无关紧要,但我还是写成了生还哈哈哈哈哈...(yichen_df) 预测一下 probability = model.predict(yichen_Features) 把预测结果 probability 加在原来数据中 yichen_df.insert...它是按照一艘船有那么多人,几人可以生还那样训练,就一个人必存活呀,我这还低了呐 先把这个数据加在总数据里面,这样生还率应该稍微比真实情况偏低一丁点,但是这样才是预测正确姿势呀 all_df = pd.concat...呜呜呜,29% 生还率,要是能买个 1 等船舱就是 71% 啦 ? 然而为啥花钱少生存率还能高啊? ? ?

    44220

    基于生存分析模型用户流失预测

    基于生存分析模型用户流失预测 小O:有没有什么很好办法在预测用户流失同时,提供一些建议帮助我们运营呢?...小O:这太可以了~ 生存模型就能很好地解决上面的问题,生存分析(Survival analysis)是指根据历史数据对人生存时间进行分析和推断,研究生存情况与众多影响因素间关系。...0.5,预测中位生存时间是inf,可以采用cph.predict_percentile(churn0,p=0.6)计算分为数存活时间 预测最大存活时间为tenure最大值,即无法预测到观测截面时间后生存情况...因此也可以将inf定义为最大值 一些用户会在流失前被预测为流失,因此存在剩余生存时间为负。...可以通过校准纠偏 # 预测未流失客户生存曲线 unconditioned_sf = cph.predict_survival_function(churn0) # 校准 conditioned_sf

    1.2K110

    案例实战|泰坦尼克号船员获救预测(算法求解)

    01 — 回顾 泰坦尼克号船员获救案例数据原来模样: 经过数据预处理后,解决了以下问题: 数据Nan值问题 特征选取问题 新特征创建 数据清洗问题 非数值型特征转换为可以计算数值型 得到数据是直接可以...feed到机器学习算法中,进行求解: 关于这部分介绍,请参考: 案例实战|泰坦尼克号船员获救预测(数据预处理部分) 下面,介绍利用这些数据,进行模型求解,预测船员获救情况。...借助sklearnAPI,先做出一个基本预测预测过程思路如下: from sklearn.linear_model import LinearRegression from sklearn.cross_validation...04 — 总结和展望 关于这个问题求解算法,应该还可以再精进一步,时间关系,先总结到这里,这样完成了泰坦尼克号船员预测问题。...以上算法部分,只能算是第一阶段,要想取得更好预测精度,那一定得借助 XGBoost,将以上多个集成算法组成 Stacker,然后预测结果综合起来作为XGBoost特征输入,y值为训练集Survived

    92890

    使用scikit-learn进行建模预测和评估操作_泰坦尼克号获救预测

    [0], n_folds=3, random_state=1) # 预测结果 predictions = [] # 训练集, 测试集, 交叉验证 for train, test in kf:...,如果不设置,两次执行随机值是不一样 # n_estimators 指定有多少颗决策树,树分裂条件是: # min_samples_split 代表样本不停分裂,某一个节点上样本如果只有2...# - 看不同特征效果 # - 特征提取是数据挖掘里很- 要一部分 # - 以上使用特征都是数据里已经有的了,在真实数据挖掘里我们常常没有合适特征,需要我们自己取提取 # # In[153...预测值, 取平均 test_predictions = (full_test_predictions[0] + full_test_predictions[1]) / 2 # Any value...titanic_test[predictors].astype(float))[:, 1] full_predictions.append(predictions) # 梯度提升分类器产生更好预测

    45140

    案例实战|泰坦尼克号船员获救预测(XGBoost提交结果)

    01 — 回顾 泰坦尼克号案例系列已经推送了2个,分别解决了数据预处理:特征工程,数据清洗等,包括模型BaseLine阶段求解,关于这两篇文章,请参考: 案例实战|泰坦尼克号船员获救预测(数据预处理部分...) 案例实战|泰坦尼克号船员获救预测(算法求解) 其中在算法求解部分,小编脑子出现短路,在第一个求解中本想调用逻辑回归,但是错误地调成了线性回归,图片如下所示: ?...另外,对已经阅读和可能以后看到读者,大家注意这个问题!接下来,任何问题,还希望大家帮小编指正。 已经对泰坦尼克号获救预测准确度达到了83....最后拿xgboost训练后结果再对测试集预测,这个结果就可以作为最终预测结果提交到kaggle中了。...02 — Stacker 已经拿随机森林分类器,Adboost分类器,GBDT分类器,支持向量机分类器,对泰坦尼克号获救情况作出预测,并且绘制了特征图,下面再总结下其中几个分类器得到特征重要程度表格

    1.3K60

    案例实战|泰坦尼克号船员获救预测(数据预处理部分)

    今天,首先介绍参赛队伍最多一个实际问题:泰坦尼克号船员获救预测,先看下项目的基本描述: Competition Description 项目描述 The sinking of the RMS Titanic...这次竞赛,我们想预测哪些人群更容易生还。特别地,希望大家用机器学习模型来预测哪些人幸免于难。...测试集只包含基本特征,不包含获救情况(not include ground truth),需要用上面训练得到模型预测获救情况。...对各个特征分析研究,对于最后预测结果起到至关重要作用,因此一定要花足够多时间来分析特征,构思各个特征间关系,是不是有些特征可以合并为一个新特征,有些特征可以过滤掉等等。...至此,泰坦尼克号船员预测数据预处理任务完成,明天推送,这些数据feed到机器学习算法中,然后得到一个预测模型,看一下在测试集上表现如何,以及如何做出优化。

    1.3K70

    kaggle泰坦尼克号幸存预测问题(入全球前10%)

    问题描述 比赛地址 kaggle泰坦尼克号比赛说明 泰坦尼克号沉没是历史上最著名沉船之一。...1912年4月15日,在她首航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻悲剧震惊了国际社会,并促进了更严格船舶安全规定产生。...造成海难失事原因之一是乘客和机组人员没有足够救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,比如女人,孩子和上流社会。 在这个挑战中,我们要求您完成对哪些人可能存活分析。...特别是,我们要求您运用机器学习工具来预测哪些乘客在悲剧中幸存下来。

    93130
    领券