Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

作者头像
机器学习AI算法工程
发布于 2018-03-13 08:00:10
发布于 2018-03-13 08:00:10
1.3K0
举报

本文内容翻译并编辑自 Bayesian Survival Analysis in A Song of Ice and Fire,by Erin Pierce and Ben Kahle.

原文链接http://www.reddit.com/r/statistics/comments/31oz8n/bayesian_survival_analysis_in_a_song_of_ice_and/.compact翻译:新妍

校对:Jude

via:数据工匠

《冰与火之歌》书迷遍布全球。该小说凭借其丰富的人物设置受到广大书迷青睐。然而,在马丁( Martin )笔下,无论好人、坏人,主角、配角都难逃命运的捉弄。除不计其数的无名小卒外,马丁的世界里有916位有名字的角色,其中三分之一都已以各种方式结束了自己在小说中的生命。本文中,我们将进一步探究小说人物的死亡模式,建立贝叶斯生存模型来预测各角色的死亡概率。

本文数据来自冰与火之歌维基( A Wiki of Ice and Fire )。依据该数据我们创建了截至目前书中出现的916名角色的数据集。用人物首次出现的章节,性别,是否为贵族,所属势力,死亡的章节(若已故)作为解释变量来预测这些角色在未来两本书中的存活情况。

方法论

采用Weibull 分布外推在7本书中的各个角色的生存概率。Weibull分布提供了一种建立危险函数( hazard function )模型的方法。而危险函数主要测量人物在特定“书龄”上的死亡概率。Weibull分布主要依赖与两个参数,k和lambda,这两个参数决定了Weibull分布的形状。

在参数估计之前我们选取均匀分布作为先验概率。对于尚存角色,分析k和lambda如何描述人物的存活状况;对于已故人物,分析参数如何预测人物死亡时间。

对守夜人( Night’s Watch ),生存概率的后验分布如图1

图1:lambda的分布比较紧密(在0.27附近),K的分布比较宽松。

接下来,本文通过生存曲线分析人物的生存情况。为与生存曲线相联系,计算k和lambda的均值以及90%的置信区间。进一步,绘制原始数据和基于后验均值的生存曲线以及置信区间。

个人分析:雪诺( Jon Snow )

采用贝叶斯生存分析方法可以预测个性化人物(例如雪诺)的生存情况。在卷五:魔龙的狂舞( A Dancewith Dragons )结尾,守夜人生存的置信区间为0.36到0.56。Jon能活下来的估计并不乐观。即使Jon可以顺利活过第5本书,他在接下来的两本书中存活的概率将降到0.3到0.51。

图2:置信区间紧紧围绕在真实数据周围,均值为合理预测。

值得注意的的是Jon并非守夜人的普通一员。他受过良好的教育,拥有精良的武器和战斗技能。接下来,将样本选为守夜人中家族地位显赫,教育良好的贵族。守夜人中只有11人为贵族。所以置信区间(如图3所示)非常分散,最优近似( Best Estimate )显示贵族背景并不能提高守夜人的生存率。

图3:当只有贵族角色时,生存曲线的置信区间显著加宽,概率置信区间下限非常接近0。

家族因素

接下来,我们分家族研究人物的生存情况。这里包括9个主要家族,守夜人,野人( the Wildlings ),和其他( a “None” category,指无法归入某类势力的人物)。

图4 :Arryn (蓝),Lannister (金),None (绿)及Stark (灰)的生存概率。

图5:Tyrell (绿),Tully (蓝),Baratheon (橘)及Night’sWatch (灰)生存概率。

图6:Martell (橘),Targaryen (栗色),Greyjoy (黄)及Wildling (紫色)生存概率。

图4、5、6的置信区间表明艾琳家族( Houses Arryn )、提利尔家族( Houses Tyrell )以及马泰尔家族( Houses Martell )有较高的生存率。主要原因是其远离书中主要冲突,不过这也意味着这些家族信息较少,我们只有至多5个死亡成员样本,所以生存曲线并没有包含足够的样本点。信息量的稀疏体现为较宽的置信区间。相反,北境诸侯( in the north )、史塔克家族( the Starks )、守夜人和野人这些家族(或势力)有较低的生存曲线和较窄的置信区间。他们在情节主线中占据主要篇幅,许多重要人物都是他们的一员。

男女(性别因素)

书中塑造了丰富的女性角色,但依旧以男性人物为主(男女比例为769:157)。女性生存概率的置信区间较宽,但是其生存状态显著好于男性。如图7。

图7:维斯特洛(Westeros)中女性存活概率高于男性。

地位(阶层)

小说中贵族和贫民人数差距很大,其生存曲线也展现出不同态势。如图8所示,平民倾向于在出场阶段迅速死亡,若能安全度过“介绍期”则将存活较长时间,甚至生存概率会高于部分贵族。

图8:贵族在介绍期存活的概率较大,但生存概率的下降速度要大于平民。

个性角色分析

利用本文提及的方法,可以结合性别,家族,地位等复合因素提供针对个体角色的粗糙预测模型。在书中给一个非常受欢迎的角色是艾莉亚( Arya ),许多读者关心她在书中的命运。史塔克家族的贵族女性中还包括一些值得注意的角色如珊莎( Sansa )和布雷妮( Brienne,宣誓效忠于史塔克家族,虽然她后来才被介绍)。另外,皇后瑟曦( Cersei )和可怜的弥赛拉( Myrcella )也十分令人着迷。为了得到生存曲线的准确区间估计,我们将贵族女子和平民女子的数据加以综合。

图9:各组置信区间都比较宽松。与史塔克家族相比,兰尼斯特( Lannister )家族的贵族女性死亡可能性更高。虽然信息不明确,但艾莉亚会比瑟曦活得久一些

此外我们还关心两个小角色,野人公主瓦迩( Val )和神秘的魁蜥( Quaithe )。她们并不是故事一开始就出现,所以分析相对比较复杂。瓦迩在章节2.1中被引入,她在整个时序中存活的概率在0.1到0.53之间。魁蜥在章节1.2中首次出现,她的生存概率为0.58到0.85,明显高于瓦迩。

图10:代表一些小角色的生存曲线,魁蜥和瓦迩有不同的生存曲线。

有足够的数据能够区分大多数男性角色的家族、性别和地位,以绘制他们的生存曲线。图11显示,兰尼斯特兄弟的生存曲线居中,在第七本书的生存概率为0.35到0.79。达里奥( Daario )生存曲线的置信区间较宽,但考虑到他是在章节2.5中才出现,所以存活概率较大。曼斯( Mance )的存活概率最不容乐观。曼斯在章节2.2故事中登场,他的存活概率为0.19到0.56。

图11:不同地位、联盟的男性角色的生存曲线。

有一些角色,我们期望看到他们一命呜呼,但是图12显示他们还要活很久。希恩( Theon)似乎会痛苦的活着直到到结局。瓦尔德·弗雷( Walder Frey )在章节0.4中初次登场,存活的可能性为0.44到0.72之间。目前为止,霍斯特·徒利( Hoster Tully )可能是唯一一个死于衰老的人,所以弗雷将有可能活到结局

图12:不同地位、联盟的男性的生存曲线。

总结

孰生孰死在故事中充满变数,但从现有数据中,我们可以观察到不同组别下人物生死的模式。对于一些特定角色,尤其是男性角色,我们可以对他们在未来的故事中的遭遇做简单预测。但对于数据较少的、非主要家族的女性来说,预测的准确性则有待商榷。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析
《冰与火之歌》书迷遍布全球。该小说凭借其丰富的人物设置受到广大书迷青睐。然而,在马丁( Martin )笔下,无论好人、坏人,主角、配角都难逃命运的捉弄。除不计其数的无名小卒外,马丁的世界里有916位
小莹莹
2018/04/23
1.2K0
基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析
[译]贝叶斯生存分析之“权利的游戏”
大数据文摘翻译作品 作者: Allen Downey 翻译:Cheng Kun 校对:孙沁(kiki) 欢迎个人转发朋友圈;其他机构或自媒体转载,务必后台留言,申请授权 去年秋天我在欧林学院讲授贝叶斯统计的入门课。我的学生们正在做一些优秀的项目,我便邀请他们来写出项目结果,作为我博客的特邀文章。 其中一支团队将贝叶斯生存分析运用到“冰与火之歌”的人物角色上,,这个系列由乔治•马丁所写。利用前五本书里的数据,他们为每个角色在即将出版的书中的命运,即是生是死,一一作了预测。 权力的游戏第五季将在4月12号播出,
大数据文摘
2018/05/21
8750
「Workshop」第三期:生存分析
生存函数:个体存活到某个时间点t的概率,或者说到时间t为止,感兴趣的事件(T)没有发生的概率:
王诗翔呀
2020/07/03
2.7K0
「Workshop」第三期:生存分析
机器学习“剧透”权游大结局:三傻最先领盒饭,龙妈、小恶魔笑到最后
和大部分权游粉一样,文摘菌一整个上午的朋友圈都刷的战战兢兢,生怕被剧透。但是没有想到,还是“被“看到了大结局!而且,给我剧透的还是个算法。
大数据文摘
2019/04/26
4390
机器学习“剧透”权游大结局:三傻最先领盒饭,龙妈、小恶魔笑到最后
AI玩“剧透”预测《权力的游戏》死亡名单
自己断更很久了,一直忙着复习考研,最近状态不错,第一轮的复习也接近尾声,今天就写篇文章给大家介绍一个关于《权力的游戏》Github项目。
PM小王
2019/07/02
4780
AI玩“剧透”预测《权力的游戏》死亡名单
R语言进阶之生存分析
在医学研究中,生存分析是一类非常重要的统计方法,它主要的目的是对生存率和时间进行建模,计算患者在特定时间段内生存的概率,主要用于评估治疗的效果和疾病的危险程度。由于患者可能在研究结束时或存活或死亡,还有一部分可能失联(可能活着),导致出现一定比例的删失值。因此,生存分析的数据分析也有其自身的特点。
生信与临床
2020/08/06
2.2K0
R语言进阶之生存分析
R语言之生信⑦Cox比例风险模型(单因素)目录
在前一章(TCGA生存分析)中,我们描述了生存分析的基本概念以及分析和总结生存数据的方法,包括:1.危险和生存功能的定义 2.为不同患者群构建Kaplan-Meier生存曲线用于比较两条或更多条生存曲线的logrank检验
用户1359560
2018/12/18
4K0
生存分析——跟着lifelines学生存分析建模(三)
github地址:CamDavidsonPilon/lifelines 文档地址:lifelines
悟乙己
2021/12/07
3.3K1
生存分析——跟着lifelines学生存分析建模(三)
精准医学 | Nat.Med | 肥胖的亚分类用于精确预测心血管代谢疾病
◉ 流程图展示了我们对BMI-生物标志物不一致性的总体分析步骤,以及用于将BMI-生物标志物不一致性划分成概率分布的算法集合的详细信息。PCA代表主成分分析。◉ Flowchart depicting the overall steps in our analysis of BMI–biomarker discordance, with details about the ensemble of algorithms used to partition BMI–biomarker discordance into probabilistic profiles. PCA, principal components analysis.
生信菜鸟团
2025/02/27
1250
精准医学 | Nat.Med | 肥胖的亚分类用于精确预测心血管代谢疾病
预测算法哪家强?龙妈苟活or凉凉?
导读:通过对美剧「权利的游戏」中的信息分析,从数据的角度去预测了主要角色的生存几率,这种对虚幻故事的研究手法,也将对现实生活中相似的应用案例带来启发。
IT阅读排行榜
2019/05/21
7010
预测算法哪家强?龙妈苟活or凉凉?
Nat Med | 在中国,通过‘一刀切’的方法提高退休年龄可能无法有效实现延长工作年限的目标
生信菜鸟团
2024/12/05
1130
Nat Med | 在中国,通过‘一刀切’的方法提高退休年龄可能无法有效实现延长工作年限的目标
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据
生存分析是一种回归问题(人们想要预测一个连续值),但有一个转折点。它与传统回归的不同之处在于,在生存分析中,结果变量既有一个事件,也有一个与之相关的时间值,部分训练数据只能被部分观察——它们是被删失的。本文用R语言生存分析晚期肺癌患者数据
拓端
2022/12/22
7890
机器学习预测《权力的游戏》中角色的死亡率
作为《权力的游戏》(以下简称:权游)的狂热粉丝,来自慕尼黑工业大学(TUM)的一个学习小组用人工智能给出了预测:龙母(DaenerysTargaryen)幸存的机率最高,死亡率仅0.9%;龙母的国王之手小恶魔(TyrionLannister)也只有2.5%的死亡率。
Ai学习的老章
2019/04/23
1K0
机器学习预测《权力的游戏》中角色的死亡率
R语言中的生存分析Survival analysis晚期肺癌患者4例
受试者2、3、5、6、8、9和10 在10年时都是无事件的。受试者4和7 在10年之前发生了该事件。主题1 在10年之前已被审查,因此我们不知道他们是否在10年之前有此事件-我们如何将该主题纳入我们的估计中?
拓端
2020/08/14
1.9K0
龙妈非主角?AI告诉你下一个谁领便当:机器学习解读《冰与火之歌》
永远不知道谁会下一个领便当的《权力的游戏》迎来了最终季。就在昨天,在全球粉丝的热切期盼下,HBO播出了《权力的游戏》第八季第一集,这首冰与火之歌终于奏响终章了。
量子位
2019/04/22
5770
龙妈非主角?AI告诉你下一个谁领便当:机器学习解读《冰与火之歌》
生存分析是什么?手动和使用R的示例
尽管生存分析是统计学的一个分支,但通常不包含在初级统计学课程中,对一般公众来说也相对不知名。它主要在生物统计学课程或高级统计学研究计划中教授。
磐创AI
2024/03/22
3320
生存分析是什么?手动和使用R的示例
R|生存分析(1)
生存分析:研究各个因素与生存时间有无关系以及关联程度大小。可拓展到疾病复发时间,机器的故障时间等。 起始事件:反应研究对象开始生存过程的起始特征事件。 终点事件(死亡事件):出现研究者所关心的特定结局。如“病人因该疾病死亡”。 观察时间:从研究开始观察到研究观察结束的时间。 生存时间:观察到的存活时间,用符号t表示。 完全数据:从观察起点到死亡事件所经历的时间,生存时间是完整的。 截尾数据(删失值):观察时间不是由于终点事件而结束的,而是由于(1)失访(2)死于非研究因素(3)观察结束而对象仍存活以上三种原因结束的。常在截尾数据的右上角放一个“+”表示其实该对象可能活的更久。
生信补给站
2020/08/06
2.7K0
生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型(分层/时变/参数模型)(二)
与完全数据相反,如果在研究结束的时候,研究对象发生了研究之外的其他事件或生存结局,无法明确的观察记录到发生终点事件的生存时间,我们把这种类型的数据称之为删失数据,或不完整数据(Incomplete data)。
悟乙己
2021/12/07
8K0
生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型(分层/时变/参数模型)(二)
生存分析|知道这些又没有坏处
生存分析:研究各个因素与生存时间有无关系以及关联程度大小。可拓展到疾病复发时间,机器的故障时间等。
生信补给站
2021/03/03
1.1K0
生存分析|知道这些又没有坏处
理解贝叶斯优化
贝叶斯优化是一种黑盒优化算法,用于求解表达式未知的函数的极值问题。算法根据一组采样点处的函数值预测出任意点处函数值的概率分布,这通过高斯过程回归而实现。根据高斯过程回归的结果构造采集函数,用于衡量每一个点值得探索的程度,求解采集函数的极值从而确定下一个采样点。最后返回这组采样点的极值作为函数的极值。这种算法在机器学习中被用于AutoML算法,自动确定机器学习算法的超参数。某些NAS算法也使用了贝叶斯优化算法。
SIGAI学习与实践平台
2020/06/10
8.5K0
推荐阅读
相关推荐
基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档