首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kaggle上的泰坦尼克生还数据分析

接下来先简单分析一下数据,比如生还与死亡的比例,不同等级(Pclass)对生还有无影响,我们知道老人,妇女,小孩会优先所以看看性别,年龄是否有影响,此外票的价钱有关吗(fare)?...而Age由于有大量缺失值这里相关性为NA,下一步的目标似乎应该是在于如何处理这些缺失的数据上面。 图形分析也许更简单快捷,直接使用corrgram来分析。...corrgram.vars], lower.panel=panel.ellipse, upper.panel=panel.pie,text.panel=panel.txt, main="泰坦尼克生还率相关性分析...初次建模 有了前面的探索性分析,大致我们对数据有了一定了解,考虑先建立一个模型来进行一次初步预测。...不过泰坦尼克灾难发生时适用) Rev., Col. Sir. Dr. etc… 等大多与职业相关,应该都是男士 而对西方的名字,比如: Baclini, Mrs.

1.4K80

Kaggle经典数据分析项目:泰坦尼克号生存预测!

每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望能有一个完整的数据分析项目练手,这几天收集了组织成员们的推荐。...其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。...如果已经有基础了,推荐: 1.开源项目《动手学数据分析》: https://github.com/datawhalechina/hands-on-data-analysis 2.DCIC 2020算法分析赛...https://mp.weixin.qq.com/s/-fzQIlZRig0hqSm7GeI_Bw 全文如下: 本文结合泰坦尼克号生存预测,从1.数据探索(数据可视化),2.数据预处理,3.模型训练,4...数据概述与可视化 1.1 数据概述 首先我们导入我们的训练数据和测试数据数据集包含train.csv和test.csv两个文件,在 Datawhale 公众号回复 数据集,可获取打包链接,也可以直接在

2.6K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言使用特征工程泰坦尼克数据分析应用案例

    通过人类的直觉和创造力,您对数据的了解程度可以带来不同。 那么什么是特征工程?...对于不同的问题,它可能意味着许多事情,但在泰坦尼克号的竞争中,它可能意味着砍伐,并结合我们在Kaggle的优秀人员给予的不同属性来从中榨取更多的价值。...为了提取这些标题以创建新变量,我们需要在训练集和测试集上执行相同的操作,以便这些功能可用于增长我们的决策树,并对看不见的测试数据进行预测。在两个数据集上同时执行相同过程的简单方法是合并它们。..., test) 现在我们有了一个名为“combi”的新数据框,其中包含与原始两个数据集完全相同的行,按照我们指定的顺序堆叠:先训练,然后测试第二。...因为我们在单个数据帧上构建了因子,然后在构建它们之后将它们拆分,R将为所有新数据帧提供所有因子级别,即使该因子不存在于一个数据帧中也是如此。它仍然具有因子水平,但在集合中没有实际观察。整洁的把戏对吗?

    6.6K30

    R语言泰坦尼克号随机森林模型案例数据分析

    到目前为止,最大的一个是房间里的大象,我们必须清理数据集中的缺失值。rpart它有一个很大的优点,它可以在遇到一个NA值时使用代理变量。在我们的数据集中,缺少很多年龄值。...我们的数据框现已被清除。现在进入第二个限制:R中的随机森林只能消化多达32个等级的因子。我们的FamilyID变量几乎翻了一倍。...相对较差的性能确实表明在较小的数据集上,有时候一个更高级的模型不会打败一个简单的模型。除此之外,还有私人排行榜,因为我们的公共分数只评估了50%的测试数据。 但是,我们不要放弃。有不止一个合奏模型。...我们还必须手动设置每个节点的样本数量,因为我们的数据集的默认值为5。...从这个数据集中可能还有一些更多的见解。

    1.2K20

    R语言泰坦尼克号随机森林模型案例数据分析|附代码数据

    我们必须清理数据集中的缺失值。rpart它有一个很大的优点,它可以在遇到一个NA值时使用替代变量。在我们的数据集中,缺少很多年龄值。...看一下合并后的数据框的年龄变量: > summary(combi$Age) Min. 1st Qu. Median Mean 3rd Qu. Max....我们的数据框现已被清理。现在进入第二个限制:R中的随机森林只能消化多达32个等级的因子。我们的FamilyID变量几乎翻了一倍。...(fit) ---- PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化 01 02 03 04 我们的Title变量在这两个指标中都处于领先地位...---- 本文选自《R语言泰坦尼克号随机森林模型案例数据分析》。

    74900

    如何用Python分析泰坦尼克号生还率?

    1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还。...我删除掉了 ‘Ticket’,‘Cabin’ 两列数据,实际上这两列数据对于我们分析数据并没有太多用处。...09 数据可视化分析 数据透视表是 Excel 中最常用的数据汇总分析工具,它可以根据一个或多个制定的维度对数据进行聚合,探索数据内深层次的信息。...总结 本次分析主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。 样本数量为 891,海难发生后,生还者还剩 342 人,生还率为 38%。...最后需要说明的是,此次数据分析数据集是从总体中抽样而来的,如果抽样无偏,样本是从总体随机选取,根据中心极限定理,分析结果具有代表性,如果不是随机选出,那么分析结果就不可靠了。

    78531

    R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况

    数据集 我们将在泰坦尼克数据集上工作。这个数据集在网上有不同的版本,但是我建议使用Kaggle提供的版本,因为它几乎已经可以使用了(为了下载它,你需要在Kaggle注册)。...数据集(训练)是一些乘客(准确的说是889人)的数据集合,比赛的目标是根据一些特征,如服务等级、性别、年龄等来预测生存率(如果乘客幸存下来就是1,如果没有就是0)。...数据清理过程 在处理真实的数据集时,我们需要考虑到一些数据可能丢失的情况,因此我们需要为我们的分析准备数据集。作为第一步,我们使用read.csv()函数加载csv数据。...加载和预处理数据 现在我们需要检查缺失值,并使用sapply()函数查看每个变量有多少个唯一值,该函数将作为参数传递的函数应用于数据框的每一列。...现在我们可以对模型分析偏差表 ? 无效偏差和_残差_之间的差异显示了我们的模型与空模型(只有截距的模型)的对比情况。这个差距越大越好。分析该表,我们可以看到逐一添加每个变量时_残差_的下降。

    2.5K10

    Python+PowerBI探索分析,看图表,说数据。解析泰坦尼克号中谁能被获救——分析

    前言 本号之前就已经有一篇文章关于探索《泰坦尼克号》的生还数据案例,文章中完全使用 Python 分析出一系列数据背后的逻辑。...数据说明 本文案例数据来自于一份公开的关于"泰坦尼克号遇难事件"的数据。...如果你熟悉电影《泰坦尼克号》的情节就知道,整个救援工作的核心是"lady first"!...通过 cabin 同样可以分析出,某些房间会有更高的生还率,Kaggle 上有人通过关于当年泰坦尼克号的船结构分析出每个房间的位置,更靠近甲板的房间更可能获救 以上部分的分析报告是做出来的,有兴趣的小伙伴请自行下载查看...---- ---- 最后 在数据探索分析(EDA)中经常需要对不同维度进行数据分析可视化,如果全过程使用 Python 会很不方便。

    70510

    品玩SAS:泰坦尼克号之灾(上)——逃生率分析

    今天我们就一起来探讨下泰坦尼克号的逃生率问题,该问题主要分为两部分,一是分析影响逃生率的因素有哪些,二是在这种因素影响下,预测另一群人逃生的概率。...本期“品玩SAS”主要分析影响逃生率的各项因素,探索发现哪些人更有可能逃生。...2 理解数据 2.1 数据来源 本文数据取自KAGGLE泰坦尼克号生存预测比赛:https://www.kaggle.com/c/titanic/overview,其中包括训练集和测试集,训练集中包括乘客获救状态和基本信息...2.2 查看数据 2.2.1 导入数据 首先把数据导入SAS,看一看数据长什么样。...3 数据分析 3.1 总体情况 *查看生存状态、性别、乘客等级、登场港口、年龄分布情况; proc sql; select survived,count(*) from train group by

    1.4K20

    《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(二)

    第二部分:使用分类变量预测存活结果 在《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)中,我们介绍了R中有关导入数据的知识。...现在让我们分析一下age变量: > summary(train$Age) Min. 1st Qu. Median Mean 3rd Qu. Max....NA's 0.42 20.12 28.00 29.70 38.00 80.00 177 在数据分析中,数据缺失是十分常见的。...现在我们分析的是一个连续变量,由于每个年龄对应的乘客只有一两个,因此不能为它制作比率表。因此,让我们创建一个新变量“Child”,来代表乘客是否低于18岁。...参数data说明公式中的变量存在于哪个数据框中。最后一个参数说明需要在拆分子集后的数据上应用什么函数。上方的命令根据性别和年龄划分了不同的子集,并在每个子集上应用了求和函数。

    1.2K50

    基于决策树的泰坦尼克号幸存者分析

    基于决策树的泰坦尼克号幸存者分析,几个重要的方法 缺失值的处理 将字符型数据转成数值型 特征属性数据和标签属性的分离 决策树的建模 网格搜索的建立 导入模块 import numpy as np...import train_test_split # 训练集和测试集的划分 from sklearn.model_selection import cross_val_score # 交叉验证模块 导入数据...data = pd.read_csv("/Users/peter/data-visualization/train.csv") 查看数据信息 ?...将属性的值转成数值型 Python不能直接处理字符串数据,需要转成数值型 Embark中存在[“S”, “C”, “Q”]3种结果:现将结果转成列表,再从列表中取出对应的索引(数字) Sex字段中存在[...特征属性和标签的分离 根据某个属性将数据分成特征数据和标签数据(最后的预测值或者输出值) x = data.iloc[:, data.columns !

    1.1K10

    《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

    那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。...泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。...我将向您介绍一种免费且强大的统计编程语言R,并教会您如何用它进行预测分析。 在接下来的几个星期里,我将一步步带你走近R和它的语法,并通过一系列算法引导你从小白逐步成为高手。...第一部分:R入门 欢迎来到《泰坦尼克:从R开始数据挖掘》的第一部分,本部分将指导你完成R中的基本部分:加载数据并浏览数据。 首先安装一个R,以及它的官方IDE:RStudio。...在泰坦尼克号比赛中,你每天最多可以提交5次结果; 这是一个好消息,因为我们在第2部分中将生成多个预测结果!

    2.4K60
    领券