接下来先简单分析一下数据,比如生还与死亡的比例,不同等级(Pclass)对生还有无影响,我们知道老人,妇女,小孩会优先所以看看性别,年龄是否有影响,此外票的价钱有关吗(fare)?...而Age由于有大量缺失值这里相关性为NA,下一步的目标似乎应该是在于如何处理这些缺失的数据上面。 图形分析也许更简单快捷,直接使用corrgram来分析。...corrgram.vars], lower.panel=panel.ellipse, upper.panel=panel.pie,text.panel=panel.txt, main="泰坦尼克生还率相关性分析...初次建模 有了前面的探索性分析,大致我们对数据有了一定了解,考虑先建立一个模型来进行一次初步预测。...不过泰坦尼克灾难发生时适用) Rev., Col. Sir. Dr. etc… 等大多与职业相关,应该都是男士 而对西方的名字,比如: Baclini, Mrs.
每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望能有一个完整的数据分析项目练手,这几天收集了组织成员们的推荐。...其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。...如果已经有基础了,推荐: 1.开源项目《动手学数据分析》: https://github.com/datawhalechina/hands-on-data-analysis 2.DCIC 2020算法分析赛...https://mp.weixin.qq.com/s/-fzQIlZRig0hqSm7GeI_Bw 全文如下: 本文结合泰坦尼克号生存预测,从1.数据探索(数据可视化),2.数据预处理,3.模型训练,4...数据概述与可视化 1.1 数据概述 首先我们导入我们的训练数据和测试数据: 数据集包含train.csv和test.csv两个文件,在 Datawhale 公众号回复 数据集,可获取打包链接,也可以直接在
不同仓位等级中幸存和遇难的乘客比例 不同性别的幸存比例 幸存和遇难乘客的票价分布 幸存和遇难乘客的年龄分布 不同上船港口的乘客仓位等级分布 幸存和遇难乘客堂兄弟...
下载数据集请登录爱数科(www.idatascience.cn) 该数据集提供有关泰坦尼克号乘客的信息,可用于预测乘客是否幸存。 1. 字段描述 2. 数据预览 3....数据来源 来源于Kaggle。
以下练习数据来源均为seaborn库中提供,通过网络获取,如果出现网络获取慢或者失败的情况,可以到GitHub上搜索seaborn-data,下载后传入读取路径即可 from matplotlib import...pyplot as plt import seaborn as sns import numpy as np 泰坦尼克号海难幸存状况分析 data = sns.load_dataset("titanic...整体来讲,存活的人票价相对都高一些,这也解释了上面低等舱的人死亡过多的情况 幸存和遇难乘客的年龄分布 surviveds = [] fares = [] # 删除年龄为NaN的行数据
通过人类的直觉和创造力,您对数据的了解程度可以带来不同。 那么什么是特征工程?...对于不同的问题,它可能意味着许多事情,但在泰坦尼克号的竞争中,它可能意味着砍伐,并结合我们在Kaggle的优秀人员给予的不同属性来从中榨取更多的价值。...为了提取这些标题以创建新变量,我们需要在训练集和测试集上执行相同的操作,以便这些功能可用于增长我们的决策树,并对看不见的测试数据进行预测。在两个数据集上同时执行相同过程的简单方法是合并它们。..., test) 现在我们有了一个名为“combi”的新数据框,其中包含与原始两个数据集完全相同的行,按照我们指定的顺序堆叠:先训练,然后测试第二。...因为我们在单个数据帧上构建了因子,然后在构建它们之后将它们拆分,R将为所有新数据帧提供所有因子级别,即使该因子不存在于一个数据帧中也是如此。它仍然具有因子水平,但在集合中没有实际观察。整洁的把戏对吗?
将数据重新加载到R后,请查看此变量的摘要: > summary(train$Sex) female male 314 577 所以我们看到大多数乘客都是男性。...NA's 0.42 20.12 28.00 29.70 38.00 80.00 177 数据分析中可能缺少值,这可能会导致现实世界中出现的各种问题,而这些问题有时很难处理。
到目前为止,最大的一个是房间里的大象,我们必须清理数据集中的缺失值。rpart它有一个很大的优点,它可以在遇到一个NA值时使用代理变量。在我们的数据集中,缺少很多年龄值。...我们的数据框现已被清除。现在进入第二个限制:R中的随机森林只能消化多达32个等级的因子。我们的FamilyID变量几乎翻了一倍。...相对较差的性能确实表明在较小的数据集上,有时候一个更高级的模型不会打败一个简单的模型。除此之外,还有私人排行榜,因为我们的公共分数只评估了50%的测试数据。 但是,我们不要放弃。有不止一个合奏模型。...我们还必须手动设置每个节点的样本数量,因为我们的数据集的默认值为5。...从这个数据集中可能还有一些更多的见解。
问题描述 RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。...在这个挑战中,我们要求你完成对哪些人可能生存的分析。特别是,我们要求您运用机器学习的工具来预测哪些乘客幸免于难。...数据集描述 题目提供的训练数据集包含11个特征,分别是: Pclass:乘客所持票类,有三种值(lower,middle,upper) Survived:0代表死亡,1代表存活 Name:乘客姓名
我们必须清理数据集中的缺失值。rpart它有一个很大的优点,它可以在遇到一个NA值时使用替代变量。在我们的数据集中,缺少很多年龄值。...看一下合并后的数据框的年龄变量: > summary(combi$Age) Min. 1st Qu. Median Mean 3rd Qu. Max....我们的数据框现已被清理。现在进入第二个限制:R中的随机森林只能消化多达32个等级的因子。我们的FamilyID变量几乎翻了一倍。...(fit) ---- PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化 01 02 03 04 我们的Title变量在这两个指标中都处于领先地位...---- 本文选自《R语言泰坦尼克号随机森林模型案例数据分析》。
1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还。...我删除掉了 ‘Ticket’,‘Cabin’ 两列数据,实际上这两列数据对于我们分析数据并没有太多用处。...09 数据可视化分析 数据透视表是 Excel 中最常用的数据汇总分析工具,它可以根据一个或多个制定的维度对数据进行聚合,探索数据内深层次的信息。...总结 本次分析主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。 样本数量为 891,海难发生后,生还者还剩 342 人,生还率为 38%。...最后需要说明的是,此次数据分析的数据集是从总体中抽样而来的,如果抽样无偏,样本是从总体随机选取,根据中心极限定理,分析结果具有代表性,如果不是随机选出,那么分析结果就不可靠了。
数据集 我们将在泰坦尼克号数据集上工作。这个数据集在网上有不同的版本,但是我建议使用Kaggle提供的版本,因为它几乎已经可以使用了(为了下载它,你需要在Kaggle注册)。...数据集(训练)是一些乘客(准确的说是889人)的数据集合,比赛的目标是根据一些特征,如服务等级、性别、年龄等来预测生存率(如果乘客幸存下来就是1,如果没有就是0)。...数据清理过程 在处理真实的数据集时,我们需要考虑到一些数据可能丢失的情况,因此我们需要为我们的分析准备数据集。作为第一步,我们使用read.csv()函数加载csv数据。...加载和预处理数据 现在我们需要检查缺失值,并使用sapply()函数查看每个变量有多少个唯一值,该函数将作为参数传递的函数应用于数据框的每一列。...现在我们可以对模型分析偏差表 ? 无效偏差和_残差_之间的差异显示了我们的模型与空模型(只有截距的模型)的对比情况。这个差距越大越好。分析该表,我们可以看到逐一添加每个变量时_残差_的下降。
前言 本号之前就已经有一篇文章关于探索《泰坦尼克号》的生还数据案例,文章中完全使用 Python 分析出一系列数据背后的逻辑。...数据说明 本文案例数据来自于一份公开的关于"泰坦尼克号遇难事件"的数据。...如果你熟悉电影《泰坦尼克号》的情节就知道,整个救援工作的核心是"lady first"!...通过 cabin 同样可以分析出,某些房间会有更高的生还率,Kaggle 上有人通过关于当年泰坦尼克号的船结构分析出每个房间的位置,更靠近甲板的房间更可能获救 以上部分的分析报告是做出来的,有兴趣的小伙伴请自行下载查看...---- ---- 最后 在数据探索分析(EDA)中经常需要对不同维度进行数据分析可视化,如果全过程使用 Python 会很不方便。
今天我们就一起来探讨下泰坦尼克号的逃生率问题,该问题主要分为两部分,一是分析影响逃生率的因素有哪些,二是在这种因素影响下,预测另一群人逃生的概率。...本期“品玩SAS”主要分析影响逃生率的各项因素,探索发现哪些人更有可能逃生。...2 理解数据 2.1 数据来源 本文数据取自KAGGLE泰坦尼克号生存预测比赛:https://www.kaggle.com/c/titanic/overview,其中包括训练集和测试集,训练集中包括乘客获救状态和基本信息...2.2 查看数据 2.2.1 导入数据 首先把数据导入SAS,看一看数据长什么样。...3 数据分析 3.1 总体情况 *查看生存状态、性别、乘客等级、登场港口、年龄分布情况; proc sql; select survived,count(*) from train group by
之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。...数据处理 数据情况 这里的数据来源与kaggle上的数据,读者可以自行进行下载,我们通过pandas读取,首先看看数据的基本情况。...缺失值处理 首先,我们看看数据的缺失情况。 data.isnull().sum() 这里有两个字段有缺失值,age我们用平均值,embarked我们用最多的值进行填充。...接着我们按0.8划分数据集。...,这样数据我们就处理完了。
第二部分:使用分类变量预测存活结果 在《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)中,我们介绍了R中有关导入数据的知识。...现在让我们分析一下age变量: > summary(train$Age) Min. 1st Qu. Median Mean 3rd Qu. Max....NA's 0.42 20.12 28.00 29.70 38.00 80.00 177 在数据分析中,数据缺失是十分常见的。...现在我们分析的是一个连续变量,由于每个年龄对应的乘客只有一两个,因此不能为它制作比率表。因此,让我们创建一个新变量“Child”,来代表乘客是否低于18岁。...参数data说明公式中的变量存在于哪个数据框中。最后一个参数说明需要在拆分子集后的数据上应用什么函数。上方的命令根据性别和年龄划分了不同的子集,并在每个子集上应用了求和函数。
基于决策树的泰坦尼克号幸存者分析,几个重要的方法 缺失值的处理 将字符型数据转成数值型 特征属性数据和标签属性的分离 决策树的建模 网格搜索的建立 导入模块 import numpy as np...import train_test_split # 训练集和测试集的划分 from sklearn.model_selection import cross_val_score # 交叉验证模块 导入数据...data = pd.read_csv("/Users/peter/data-visualization/train.csv") 查看数据信息 ?...将属性的值转成数值型 Python不能直接处理字符串数据,需要转成数值型 Embark中存在[“S”, “C”, “Q”]3种结果:现将结果转成列表,再从列表中取出对应的索引(数字) Sex字段中存在[...特征属性和标签的分离 根据某个属性将数据分成特征数据和标签数据(最后的预测值或者输出值) x = data.iloc[:, data.columns !
泰坦尼克号生存预测(数据读取、处理与建模) 简介: 本文是泰坦尼克号上的生存概率预测,这是基于Kaggle上的一个经典比赛项目。...数据集: 1.Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic 2.网盘地址:https://pan.baidu.com/s/1BfRZdCz6Z1XR6aDXxiHmHA...提取码:jzb3 代码内容 数据读取: #%% import tensorflow as tf import keras import pandas as pd import numpy...as np data = pd.read_csv("titanic/train.csv") print(data.head()) print(data.describe()) 数据处理: #%% strs
前言 上次分享,我们利用pandas和sklearn完成了泰坦尼克号数据的预处理,包括下面的步骤,具体可看深度学习|泰坦尼克号生还数据处理 选取建模字段 缺失值处理 性别处理 登陆船舱的处理 划分数据集...数据的标准化 那这篇文章我们就构造神经网络来完成数据的建模和预测。...scores = model.evaluate(x=X_test, y=y_test) scores[1] # result 0.804 这样,我们的泰坦尼克号数据预测工作就完成了
那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。...泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。...我将向您介绍一种免费且强大的统计编程语言R,并教会您如何用它进行预测分析。 在接下来的几个星期里,我将一步步带你走近R和它的语法,并通过一系列算法引导你从小白逐步成为高手。...第一部分:R入门 欢迎来到《泰坦尼克:从R开始数据挖掘》的第一部分,本部分将指导你完成R中的基本部分:加载数据并浏览数据。 首先安装一个R,以及它的官方IDE:RStudio。...在泰坦尼克号比赛中,你每天最多可以提交5次结果; 这是一个好消息,因为我们在第2部分中将生成多个预测结果!
领取专属 10元无门槛券
手把手带您无忧上云