Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >因果推理的春天系列序 - 数据科学家们这些Paradox你们碰到过[分析对]么?

因果推理的春天系列序 - 数据科学家们这些Paradox你们碰到过[分析对]么?

作者头像
风雨中的小七
修改于 2019-12-16 01:01:07
修改于 2019-12-16 01:01:07
1K0
举报

序章嘛咱多唠两句。花了大半个月才反反复复,断断续续读完了图灵奖得主Judea Pearl的The Book of WHY,感觉先读第四章的案例会更容易理解前三章相对抽象的内容。工作中对于归因问题迫切的需求,以及这两年深度学习在,都让我对因果推理在未来几年的爆发心怀希望。它最大的优势就是能回答'为什么'以及'假如这样做会怎样'等对实际业务有着根本意义的问题。对于这个领域我也是新人,所以只能抛出一些观点来供大家讨论。

Now!检验我带货能力的时候到了,如果你在和数据打交道的过程中也碰到过以下的问题,那我也向你推荐这本书。它不一定能解答你的问题,但至少能让你明白问题的根源:

  • 如何解释数据分析中有违常理或者自相矛盾的结论?为什么把数据分组和整体计算会得到不同的结果? Eg. 药物实验结果表明对高血压患者药物无效,对低血压患者药物也无效,但合起来对全部患者药物有效?
  • 已知特征X=x1的样本呈现的特点,或者Y=y1的样本有X=的特征,如何计算干预X对Y的影响 Eg. 看快手视频喜欢评论的用户活跃程度更高,那引导用户去发表评论能让他们更活跃么?
  • 建模特征应该如何选择,以及特征通过那些途径最终影响Y 个人并不喜欢有啥放啥的建模方式,既增加模型不稳定性还会增加特征解释的难度。尤其在业务中我们更多想知道的是不同特征影响Y的方式
  • 无法开展AB实验的时候,我们如何从观测数据中近似因果关系 Eg. 最常遇到这种问题的是社会学,医学实验,例如当兵经历对收入的影响。但这也提醒我们有些成本高的AB实验其实是有可能从已有数据中找到近似答案的。

这里简单列几个因果推理和统计学的差异,我们在之后的章节会逐一展开

  • 统计学解决的是P(Y|X),它更多是对观测的刻画。而因果推理旨在解决What-if问题,用Do-Caculus来表达就是P(Y|do(X)),既对X进行干预,对Y的影响。一个同事开玩笑说因果推理就像开启上帝之眼
  • 统计学认为数据是一切,而因果推理坚持数据产生的过程是解释数据所必须的。想直观感受差异的可以看下这个 Toy Example
  • 统计完全客观,而因果推理需要依赖基于经验等因素给出因果图(DAG)再进行分析计算。

作为序章最重要的是什么?吸引人眼球!所以本章通过5个数据分析中经典案例,看看当统计陷入两难,因果推理是如何变身奥特曼来打小怪兽的!

以下案例只为直观感受因果推理的现实意义,暂不考虑统计显著,小样本不置信等问题

Confounding Bias - Simpson Paradox

Confounding在数据分析中非常常见,既存在同时影响treatment和outcome的变量没有被控制,它是统计分析要控制变量的根本原因之一,是AB实验有效的背后逻辑,它也直接导致了

(P(Y|X) neq p(Y|do(x)))

但往往Confounder的存在只有在分析结果严重不符合逻辑时才被人们想到。

离散Confounder - 案例1. 今天你吃药了么?

以下是一次观测性医学实验的结果,分别给出男性和女性在服/不服用药物后心脏病发作的概率。有趣的是这种药物既不能显著降低女性病发概率,也不能显著降低男性病发概率,但却能降低整体的病发概率,你是分析师请问这种药物有用么?

答案是NO,这种药物无效 这就是著名的Simpson Paradox。用上面的因果图(DAG)分析结论会变得显而易见。这里treatment是服药,outcome是心脏病发作的概率,而因为是观测性实验所以性别可能会成为confounder。注意这里我用的是可能。而验证这种可能性就要看性别是否同时影响treatment和outcome。先看treatment,女性是对照组20,实验组40,而男性是对照组40,实验组20。因此性别显著影响treatment的渗透率 -服药人群比例。再看outcome,同在对照组女性病发率是5%而男性是30%,因此性别同时影响outcome-病发概率。

因此衡量treatment(服药)对outcome(心脏病发作)的影响,我们需要控制confounder。这样总体的发病率计算如下:

P(treatment|outcome) = P(treatment|outcome, 男) * P(男) + P(treatment|outcome, 女) * P(女)

对照组的整体效果变为 0.5 * 5% + 0.5 * 40% = 17.5% 实验组的整体效果变为 0.5 * 7.5% + 0.5 * 40% = 23.75% 这样整体就和男女分别的结论一致,服药并不能降低心脏病发概率。

连续Confounder - 案例2.运动导致高胆固醇?

在上面的例子中confounder是个离散变量男女。下面我们举个连续confounder的例子。研究目标是每周运动时间对胆固醇水平的影响。‘影响’在统计学中多数只能依赖于相关关系,于是我们画个散点图吧。 嗯?!运动时间越长,胆固醇水平越高!You What?! 这简直是厌恶运动,坚持生命在于静止的最好理由。

当然这时有经验的分析师一定会跳出来说应该要控制变量!其实这里并不是控制一切能控制的人群差异,而只要控制Confounder变量就可以了。一个最直观的Confounder变量就是年龄。年龄越高胆固醇水平越高,而运动时间越短,它同时影响treatment和outcome。Group by年龄后,我们会得到每个年龄段内运动时间和胆固醇水平是反向的。

下一次根据统计结果给出结论时,无论结果和你的预期 [直觉|第六感|推理|经验] 多么一致,都记得多想一步哟。看看自己是否遗漏了可能的confounder呢?

Mediation Bias

Mediation Bias最常发生在控制了不该控制的变量而导致影响被人为削弱。在传统统计学中,因为没有引入因果推理,本着控制一切能控制的变量来做分析的原则,往往会在不经意间踩进Mediation的深坑。同时Mediation Analysis也是AB实验后续分析中有很高实用价值的一个方向,有机会咱在AB实验高端玩法系列中好好聊聊。

变量控制并非越多越好 - 案例3. 今天你又吃药了吗?

还记得上面心脏病药物实验么?当时我们给出的结论是应该分男女分别计算实验效果,因为性别是药物效果的Confounder。这里让我们把性别因素换成患者血压,并以此告诉大家分组计算并不是永远正确的。

数据和案例1一样,只不过这里的分组变量变成了患者血压。

这里加入新的假设,已知高血压是导致心脏病发作的原因之一,且该药物理论上有降血压的效果,因此医生想要检验该药物对防治心脏病的效果。

因为是观测性实验,如果从传统分析的角度,我们似乎应该控制一切能控制的变量,保证人群一致。但根据假设,结合数据我们能发现服药患者中高血压占比显著下降,这时降血压成为药物降低心脏病发作的一个Mediator,也就是部分药物效果通过降低血压来降低心脏病发概率。因果图如下

这种情况下如果我们按血压对患者分组,相当于Condition on Mediator,人为剔除了药物通过控制血压保护心脏的效果,会造成药物影响被人为低估。因此应该合并计算,药物对控制心脏病是有效的。

在分析观测数据时,并非一切变量都应该被控制。 一切处于treatment和outcome因果路径上的变量都不应该被控制。这里直接计算整体效果是合理的

Collidar Bias - BERKSON PARADOX

Collidar 最直观的影响是伪相关关系, 往往发生在对局部样本进行分析时,因为忽略了样本本身的特点从而得到一些非常奇葩的相关关系。

负‘相关’- 案例4. 孕妈妈应该吸烟?!

1959年的一项关于新生儿的研究中出现了有趣的数据:

  • 已有研究表明孕妈妈吸烟会造成新生儿平均体重偏低
  • 已有研究表明体重过轻(<5.5磅)的新生儿存活率显著偏低
  • 该实验数据发现在体重过轻(<5.5磅)的新生儿中,妈妈吸烟的宝宝存活率显著高于妈妈不吸烟的宝宝

这是正正得负的节奏。。。>_<

还记得上面我们说Collidar Bias最容易在分析局部样本时发生,而这里体重过轻的新生儿明显就是局部样本。让我们画一个最简单的因果图答案就很明显了。

通过只观察体重过轻的新生儿存活率,我们一脚踩进了Collidar='出生体重过轻'这个陷阱,因为Condition on Collidar,从而让两个本来无关的原因出现了负向关系。简单讲,就是新生儿缺陷和妈妈吸烟都有可能导致新生儿体重过轻,两个因素此消彼长,当已知妈妈吸烟的时候,新生儿缺陷的概率会下降。而天生缺陷导致的体重过轻对婴儿存活率的影响更大是一个合理推断。因此孕妈妈吸烟反而会导致存活率上升。

上面的DAG并不完整,比如妈妈吸烟也有可能直接引起新生儿缺陷等等。但至少Collidar的存在在这里是很有说服力的

正‘相关’- 案例5. 呼吸道疾病和骨科疾病有关系?

因为Collidar而产生伪关联的变量往往是负相关的,就像上面的例子,也称explain-away effect。简单理解就是A,B都导致Collidar,那控制Collidar,A多了B就少了。但下面这个例子却是Collidar产生伪正向关系。

观察数据不难发现,对普通百姓而言患呼吸道疾病和骨科疾病没啥关系。但如果只看住院患者,患呼吸道疾病的患者同时患骨科疾病的概率会显著提升3倍以上!

这个案例的DAG很好画,但是为什么这里不是负效应而是正效应呢?一种解释是单独呼吸疾病,或者骨科疾病直接导致住院的概率都很小,因此这里对于Collidar=‘住院’,两种疾病形成互补效应而非替代效应,既同时患有两种疾病的患者住院概率更高。因此只看住院患者就产生了伪正向关系。

上述DAG并不是唯一的可能,也有可能是患者的其他疾病导致住院的同时,导致患呼吸道和骨科疾病的概率上升。Anyway只看到以上数据是无法给出结论的,因此在分析局部样本的时候请格外小心

序章的案例就分享这么多,开始怀疑人生了有没有?!


Ref

  1. https://towardsdatascience.com/why-every-data-scientist-shall-read-the-book-of-why-by-judea-pearl-e2dad84b3f9d
  2. Judea Pearl, The Book of Why, the new science of casue and effect
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-12-07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
因果图模型:理解因果关系的强大工具
在科学研究中,理解变量之间的因果关系至关重要。因果关系帮助我们不仅了解事物之间的关联,还能解释为什么这些关系存在。例如,医生想知道某种药物是否能有效治疗疾病,政策制定者想知道新的教育政策是否能提高学生成绩。因果图模型(Causal Graph Model)为我们提供了一种系统的方法来表示和推理这些因果关系。本文将详细介绍因果图模型的基本概念、组成部分、建立方法、因果推理和实际应用,帮助读者理解和使用这一强大工具。
theskylife
2024/07/31
1.1K0
数据并非都是正态分布:三种常见的统计分布及其应用
你有没有过这样的经历?使用一款减肥app,通过它的图表来监控自己的体重变化,并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重,这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理,然后绘制一条直线预测未来的体重变化。然而,体重减轻通常不会呈线性发展,使用更复杂的数学模型,如泊松回归,可能会更加贴近真实情况。
deephub
2024/06/17
5280
数据并非都是正态分布:三种常见的统计分布及其应用
动态 | 谷歌大脑医疗影像研究新进展,通过视网膜影像预测心脑血管疾病风险
AI 科技评论按:Google Brain 团队近日发现一种使用机器学习来评估心脑血管疾病风险的新方法。这种方法通过分析病人的眼睛影像,能够精确地推断出包括病人年龄、血压、是否吸烟等的相关因素,通过这些因素可以预测病人遭受重大心脑血管疾病的风险——比如心脏病发作。 这种方法与当前最先进的方法相比具有大致相同的准确度,而其优点在于,可以为医生提供快速、便捷的方法来分析病人的心脑血管疾病,并且不需要血液测试。可能更为重要的是,这项工作代表了科学发现的一种新方法。 相关的工作(Prediction of card
AI科技评论
2018/03/06
1K0
动态 | 谷歌大脑医疗影像研究新进展,通过视网膜影像预测心脑血管疾病风险
业界 | 通过分析视网膜图像诊断心脑血管疾病:谷歌大脑团队取得医疗深度学习新进展
选自Google Blog 作者:Lily Peng 机器之心编译 参与:许迪、黄小天 近日,Jeff Dean 在其推特上说:「谷歌大脑团队在机器学习+医疗上再次取得新进展;我们有了令人鼓舞的新发现:非侵入式视网膜图像上含有机器学习模型可以介入的确诊心脑血管疾病的微妙指标,之前医生都不知道有这种迹象。」 心脏病、中风和其他心脑血管疾病一直是人类健康的头号杀手。评估这类风险是未来降低患者罹患心脑血管疾病的关键性第一步。为此,医生要考虑多种风险因子—比如遗传(性别或年龄)、生活习惯(抽不抽烟,血压等)。大部分
机器之心
2018/05/10
8500
揭开因果图模型的神秘面纱:常用的因果图模型
因果图模型(Causal Diagram Models)是一种通过图形化方法表示变量之间因果关系的工具。它在统计学、社会科学、流行病学等研究领域中广泛应用。因果推断(Causal Inference)则是利用这些图模型来确定变量之间的因果关系,而不仅仅是关联关系。本文将介绍几种常见的因果图模型,探讨它们的使用范围、如何使用及其应用场景,并通过图形实例进行说明。
theskylife
2024/08/01
2K0
NLPer,是时候重视因果推理了!这有一份杨笛一等撰写的综述
机器之心报道 编辑:张倩 在这篇综述论文中,来自佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理。 科学研究的一个基本目标是了解因果关系。然而,尽管因果在生活和社会科学中扮演了重要角色,它在 NLP 中却没有得到同样重要的地位,后者通常更加重视预测任务。随着因果推理和语言处理交叉研究领域的出现,二者之前的界限正变得模糊,但 NLP 中的因果推理研究仍然分散在各个领域,没有统一的定义、基准数据集和对剩余挑战的清晰表述。 在这篇综述论文中,来自以色列理工学院的 Amir Feder、佐治亚
机器之心
2023/03/29
2690
NLPer,是时候重视因果推理了!这有一份杨笛一等撰写的综述
【谷歌AI以眼识心】超越人类医生,从视网膜图像识别心脏病
新智元报道 来源:Google blog、DeepMind 编辑:闻菲、常佩琦、艾霄葆 【新智元导读】谷歌大脑研究人员刚刚在官博上宣布了他们的最新研究成果,使用深度学习分析视网膜图像,以此预测心血管疾病突发的风险。使用深度学习来获得人体解剖学和疾病变化之间的联系,这是人类医生此前完全不知道的诊断和预测方法,不仅能帮助科学家生成更有针对性的假设,还可能代表了科学发现的新方向。 谷歌AI发现了人类医生尚未发现的诊断方法:用深度学习找到视网膜图像与心血管疾病联系 心脏病发作、中风和其他心血管疾病仍是最重要
新智元
2018/03/20
1.4K0
【谷歌AI以眼识心】超越人类医生,从视网膜图像识别心脏病
【聚焦】从李亚鹏谢顶说起, 用大数据谈失败婚姻对人的打击
编者按 王菲的前夫李亚鹏日前被人发现“后脑勺头发稀疏”,有网友点名王菲男友谢霆锋要小心,因为“有一种王菲的前男人叫秃头”,前夫窦唯和李亚鹏都中奖了。 但你们先别急着嘲笑李亚鹏,让大数据告诉你婚姻失败对人打击有多大!稳定的婚姻,对于社会来说无疑是个好事,对于人的身体健康呢? 来源:他们说 早在1858年,法国的流行病学家威廉·法尔就研究过婚姻对健康的影响。他将成年人群分为“已婚”、“单身”和“丧偶”三类。结合死亡率、年龄及其他因素分析后,他发现,单身人群的疾病死亡率是比已婚者高出许多的,而丧偶
小莹莹
2018/04/23
7130
【聚焦】从李亚鹏谢顶说起, 用大数据谈失败婚姻对人的打击
R语言探索BRFSS数据可视化
在本实验中,我们将使用dplyr软件包探索数据,并使用ggplot2软件包对其进行可视化以进行数据可视化
拓端
2020/08/23
7970
新冠病毒侵入人体全过程!从脚趾到大脑,科学家追踪到病毒对身体的巨大摧残
在杜兰大学医学院,肺病和重症监护医生Joshua Denson发现,一天之内,在约20位重症监护病人中,有2名患者出现癫痫症状,其余不少患者出现呼吸衰竭的症状,还有小部分患者的肾脏功能急剧衰减。
大数据文摘
2020/05/19
7250
新冠病毒侵入人体全过程!从脚趾到大脑,科学家追踪到病毒对身体的巨大摧残
知识图谱嵌入与因果推理的结合
知识图谱通过节点(实体)和边(关系)来表示现实世界中的信息,但如何将这些信息转化为可进行推理和决策的形式,仍然是一个挑战。
数字扫地僧
2024/09/22
7680
知识图谱嵌入与因果推理的结合
贝叶斯网络之父Judea Pearl:新因果科学与数据科学、人工智能的思考
本文介绍贝叶斯网络之父 Judea Pearl 《新因果科学与数据科学、人工智能的思考》的报告。
数据派THU
2020/06/28
3640
贝叶斯网络之父Judea Pearl:新因果科学与数据科学、人工智能的思考
中国医疗大数据发布!怎样推翻你身上的“三座大山”?
点击标题下「大数据文摘」可快捷关注 导读:近日德勤咨询发布了《2020年健康医疗预测报告》,其中中国的医疗健康状况大数据让人触目惊心。面对压在中国居民身上的三座“健康大山”,用户究竟该如何翻山越岭,医疗服务究竟该如何颠覆,才可以让我们彻底地成为身体的主人?本文给出了一一解读。 近日,国际知名的咨询公司德勤咨询发布了《2020年健康医疗预测报告》,这其中也反映了中国人群的医疗大数据。 在总人口为13亿多的中国人中,中国高血压人口有1.6~1.7亿人,高血脂的有将1亿多人,糖尿病患者达到9240万人,超重或者
大数据文摘
2018/05/23
7370
药物重定位新框架,人工智能使「旧药新用」研究取得进展
这项工作的目的是加速药物的重新定位。药物重定位并不是一个新的概念,我们现在所熟知的用于减少皱纹出现的肉毒杆菌注射液,最初是被批准用于眼睛的治疗,现也可用于治疗偏头痛。
机器之心
2021/01/20
7560
数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|附代码数据
世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病
拓端
2023/01/11
1.2K0
基于bloomz-7b指令微调的中文医疗问诊大模型,实现智能问诊、医疗问答
本项目开源了基于医疗指令微调的中文医疗问诊模型:明医 (MING)。目前模型的主要功能如下:
汀丶人工智能
2024/02/22
4230
基于bloomz-7b指令微调的中文医疗问诊大模型,实现智能问诊、医疗问答
数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|附代码数据
世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病
拓端
2023/02/09
1.1K0
因果推断入门:为什么需要因果推断?
来源:PaperWeekly本文约13200字,建议阅读15+分钟本文是 Brady Neal 推出的因果推断课程 Introduction to Causal Inference 的中文笔记。 本文是 Brady Neal 推出的因果推断课程 Introduction to Causal Inference 的中文笔记,主要是参考 Lecture Notes 加上一些自己的理解。 课程主页: https://www.bradyneal.com/causal-inference-course Lectur
数据派THU
2022/09/14
2.1K0
因果推断入门:为什么需要因果推断?
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据
最近我们被客户要求撰写关于Stata中的治疗效果的研究报告,包括一些图形和统计输出。
拓端
2023/04/20
4850
Nature子刊重磅综述:人脑功能的因果映射
绘制人类大脑功能图谱是神经科学的一个长期目标,它有望为大脑疾病的新治疗方法的开发提供信息。早期的人类大脑功能地图是基于脑损伤或脑刺激导致的功能变化的位置。随着时间的推移,这种方法在很大程度上被功能神经成像等技术所取代,这些技术可以识别出活动与行为或症状相关的大脑区域。尽管这些技术有优势,但它们揭示的是相关性,而不是因果关系。这给解释这些工具产生的数据和使用它们来开发大脑疾病的治疗方法带来了挑战。基于脑损伤和脑刺激的人类脑功能的因果图谱正在进行中。新的方法可以将这些因果信息来源与现代神经成像和电生理学技术相结合,以获得对特定大脑区域的功能的新见解。在这篇综述中,我们为转化研究提供了因果关系的定义,提出了一个连续体来评估人类脑图研究中的因果信息的相对强度,并讨论因果脑图的最新进展及其对发展治疗的相关关系。
悦影科技
2022/11/11
5830
推荐阅读
因果图模型:理解因果关系的强大工具
1.1K0
数据并非都是正态分布:三种常见的统计分布及其应用
5280
动态 | 谷歌大脑医疗影像研究新进展,通过视网膜影像预测心脑血管疾病风险
1K0
业界 | 通过分析视网膜图像诊断心脑血管疾病:谷歌大脑团队取得医疗深度学习新进展
8500
揭开因果图模型的神秘面纱:常用的因果图模型
2K0
NLPer,是时候重视因果推理了!这有一份杨笛一等撰写的综述
2690
【谷歌AI以眼识心】超越人类医生,从视网膜图像识别心脏病
1.4K0
【聚焦】从李亚鹏谢顶说起, 用大数据谈失败婚姻对人的打击
7130
R语言探索BRFSS数据可视化
7970
新冠病毒侵入人体全过程!从脚趾到大脑,科学家追踪到病毒对身体的巨大摧残
7250
知识图谱嵌入与因果推理的结合
7680
贝叶斯网络之父Judea Pearl:新因果科学与数据科学、人工智能的思考
3640
中国医疗大数据发布!怎样推翻你身上的“三座大山”?
7370
药物重定位新框架,人工智能使「旧药新用」研究取得进展
7560
数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|附代码数据
1.2K0
基于bloomz-7b指令微调的中文医疗问诊大模型,实现智能问诊、医疗问答
4230
数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|附代码数据
1.1K0
因果推断入门:为什么需要因果推断?
2.1K0
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据
4850
Nature子刊重磅综述:人脑功能的因果映射
5830
相关推荐
因果图模型:理解因果关系的强大工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档