前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >原创 | 一个简单的推导:从相关性走向因果性

原创 | 一个简单的推导:从相关性走向因果性

作者头像
数据派THU
发布2024-01-23 13:34:06
2130
发布2024-01-23 13:34:06
举报
文章被收录于专栏:数据派THU数据派THU
代码语言:javascript
复制
作者:肖振东本文约2000字,建议阅读5分钟本文带大家一起感受“因果推断”这个领域的奇思妙想。

其实关于“因果推断”的疑惑在我的本科阶段就埋下了种子。我相信几乎所有上过计量或者统计的同学,上课的课件里一定会有一句:Correlation is not causation(相关性不是因果性),仿佛先给你打好预防针:我给你讲的是“相关”,你别当“因果”。其实我当时是困惑的:“那因果性是个啥?因果性和相关性这俩又是啥关系?”但我没有深究为什么,只想着做做题应付考试就好,但自那时起这些疑问似乎成为了一个心结,被封存在长时记忆里,却经常蠢蠢欲动。直到六七年后,我开始重新认真思考这个问题。一次偶然,我在“因果推断”的书籍里发现了一个简单的而又绝妙的推导,我不禁拍案叫绝(是真的拍,拍掉了我的煎饼果子),因为它恰好回答了这个问题。我想通过这篇文章分享这个推导过程,希望能让各位读者也感受到“因果推断”这个领域的奇思妙想。

我尝试举个实际的例子,然后通过这个例子讲解整个推导的过程,相信我,一点都不难。

假如我们想知道网课是否会对学生的成绩产生影响,应该如何去验证呢?一个非常直接的办法就是我找一个上网课的学校(实验组),再找一个线下授课的学校(对照组),给他们出同一份卷子考试或者看统考成绩。得到的数据如下(我们假设就6个学生,上网课的学校3个,线下授课的学校3个,满分100分):

如此看来,上网课似乎是对学生的成绩有负面影响的。但是这里存在一个很严重的问题,我们怎么知道这两个学校在除去“上网课”这个干预的情况下其他特征都是一样的呢?即实验组和对照组是一样的吗?也许学校A是一个普通学校,而学校B是个重点学校,那么生源就成了一个干扰因素,导致上不上网课都不影响这个重点学校的学生考试表现更好。诸如此类的干扰因素非常多。那么如何去剥离这些干扰因素呢?这里需要引入“因果推断”领域的一个重要框架:潜在结果分析框架(Potential Outcome Framework)。

我尝试用我的思路帮大家理解一下这个框架的思想,简单地说为了解决上述问题,最理想的办法,其实是找一个学校,观察这个学校上网课的考试成绩表现,然后同时观察这个学校线下授课的考试表现。请注意,我这里指的并不是同一个学校先进行网课,再线下授课进行比对,而是让一个学校的所有学生同时进行网课和线下授课,并不存在时间上的先后,这样就能保证实验组和对照组是一模一样的了,而通过这种方式再去计算实验组和对照组的差异,就是在该框架下得出真实的因果效应了。你可能会说:“这怎么可能?你不可能让学生同一时间既上网课又线下授课”。这的确不可能,但是先别急,假如我们全知全能,拥有上帝视角,那么上面的数据集应该长成这样了:

即对于学生1我们可以同时观察到他上网课与线下授课的成绩分别是89和85。

如此看来,上网课是对学生的考试表现有积极影响的!我知道你可能会说,这样的例子没什么意义啊。不,在我看来,这个框架其实为寻找因果关系提供了思路,即让我使用这个框架下的术语来回顾一下这个例子。

在潜在结果分析框架(Potential Outcome Framework)中学校的上网课和线下授课其实都是潜在结果(potential outcome)即可能发生的结果,而我们一般会把真实发生了的叫“实事”(factual)而没有发生的叫“反事实”(counterfactual)。上网课这个施加的影响称之为干预(treatment或者Intervention)。我们在上帝视角例子里计算的网课效果度量在框架下被称为平均处理效应(Average Treatment Effect,缩写为ATE),而这个值我们在现实里是无法得到但是使我们努力尝试估计的目标,也就是在该框架下定义的因果效应度量。单算实验组的ATE即实验组平均处理效应(Average Treatment Effect for Treatment Group,缩写为ATT),相对应的对照组ATE即Average Treatment Effect for Untreated Group,缩写为ATU)。

到此我们其实

在这个基础上,我们再规定一下符号的书写方式:

那么按照我们先前的计算,假如就按照未开上帝视角的方式估计ATE,我们其实得到的是:

假如我们想凑出一个ATT的项,则加上并减去

(ATT的计算其实实现了我们上面提到的关于同时上网课和线下教学的幻想,是能反映因果效应的):

再整理一下式子:

你会发现这个式子可以分为两部分:

是不是很有意思!如果我们把ATT看作因果效应,那么单纯地计算样本效应差值的方法其实就是ATT+selection bias。

(注:简单均值差的分解此处遵照Angrist在Mostly Harmless Econometrics一书里的拆解方式展示,因为其关注点在ATT上,并且推导容易好理解。而其他书籍,例如Cunningham的Causal Inference: The Mixtape一书中则拆解成了ATE+selection bias+heterogeneous treatment effect bias三项,读者如果感兴趣可以自行阅读该书)

我们来简单小结一下,其实在潜在结果分析框架下,因果效应就是同一个体的事实与反事实情况下的差异,也就是我们在上述提到的上帝视角下可以得到的ATE。但是我们无法拥有全知全能的上帝视角,通过推导,我们可以得出,基于相关性计算出的对照组与实验组差异其实是因果效应加上了由对照与实验组并不相同所引起的选择性偏误,如果我们能消除选择性偏误,就有可能剥离出ATT,用来估计实际因果效应。那么如何消除选择性偏误就成为了“因果推断”领域的一个核心问题,许许多多算法都由此产生。希望本文能令你对“因果推断”产生兴趣,由此开启你对因果关系的思考与探索!

编辑:于腾凯

校对:程安乐

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档