因果推断(Causal Inference):是关联分析的一种统计方法,在较大系统内部,试图指定/干预 “因” 而观测影响/改变 “果”的过程,推断变量之间的因果关系。因果推断不仅关注事物之间的关联性,还会更进一步探究该关联是否具有可从因到果的推断关系。因果推断在生物医学、经济管理和社会科学有广泛应用。通过揭示变量之间的因果关系,理解数据的产生机制,探究出现象背后的深层原因;通过回答出"Why",理解做决策的背后原因。
因果推断研究思路可分为三个发展阶段[1]:
因果关系必然导致关联关系,但关联关系不一定反映出因果关系。甚至某些情况下,用关联关系推导出的因果关系存在自身矛盾的问题。
辛普森悖论(Simpson's paradox):英国统计学家E.H.辛普森于1951提出,某个条件下的两组数据,分别讨论时会满足某种性质,但合并考虑时,会导致相反的结论。即两个变量X和Y在每个分组中的关系是正(负)的,但在总体(汇总组) 中关系会发生逆转,变为负(正)关系。

(1). 若不考虑年龄因素,则得到服药与健康指数存在负关联性,即服药对健康状况的治疗效果是副作用(-1.2):
对应的回归分析,健康(Health)与是否服药治疗(Treat)的关系为,其中未服药为0,服药为1:
(2). 若考虑年龄影响,并假设不存在其他混淆因素,可以得到服药与健康指数是正关联性,服药对健康存在正向作用。
30岁组服药后健康差异为正向10,40岁组服药后健康差异为正向5。 定义两个变量年龄(Age)、是否服药(Treat),整理后的数据如下:
Age | Treat | Health |
|---|---|---|
30 | 0 | 80 |
30 | 1 | 90 |
40 | 0 | 60 |
40 | 1 | 65 |
进行线性回归分析,模型设置为如下:
其中β_{0} 是截距,β_{1} 是Treat治疗的相关系数,β_{2} 是Age年龄的相关系数,ϵ 是误差项。使用OLS(Ordinary Least Squares) 普通最小二乘法模拟计算,可得到如下结果:服药与健康指数是正相关的,年龄与健康指数是负相关的。
变量关系路径图是DAG(Directed Acyclic Graph) 有向无环图,由节点(顶点)和单项箭头组成。每个节点代表变量,实心节点表示观测得到的变量,空心节点表示观测不到的变量。需要注意的是,DAG有向无环图无法描述互为因果(simultaneous causation)关系(下图示例2) 和 反馈循环 (feedback loops) 关系(下图示例3)。

关系路径图代表变量之间的关联方式,路径种类(关联方式)主要分为三类:因果路径、混淆路径、对撞路径。
因果路径也称为链状路径, A\longrightarrow B \longrightarrow C ,由“因”指向“果”的单向路径,箭头指向同一方向。因果路径的关系是稳定、可解析、可回溯的,两个变量存在因果关系,则它们就存在关联关系(相关关系)。示例如下:锻炼与生活规律存在因果关系,生活规律与健康存在因果关系,可传递性推导:锻炼与健康存在因果关系。

混淆路径也称为叉状路径,A\longleftarrow B \longrightarrow C ,指观测变量之间存在混淆变量,该混淆变量同时影响观测变量,导致观测变量之间存在关联关系。示例如下:智商是混淆变量,而教育和收入分别是两个原始观测变量,由于智商变量存在,导致教育变量与收入变量存在关联性。

对撞路径也称为反叉状路径,A \longrightarrow B \longleftarrow C ,指具有对撞变量的路径,对撞变量是受两个变量共同影响的变量。对撞变量不会使得原始变量产生相关性。示例如下:死亡是对撞变量,而中枪、中风分别是两个原始观测变量,中枪与中风没有相关性。

因果推断是估计变量之间的因果关系,本质是找到变量两者间的因果路径,同时剔除两者间的非因果关系路径。但由于现实场景的复杂性,会存在各种偏差。 因果图的突出优势在于能够清晰呈现系统中变量相关性与因果推断偏差的来源,根据变量关系图类别,偏差来源也主要分为三类:过度控制偏差、混淆偏差、内生选择偏差。
过度控制偏差(Overcontrol Bias):指错误控制因果路径上的中介变量造成的偏差,该偏差会削弱甚至消除变量真实因果效用。该偏差通常发生在使用回归模型等统计方法时,试图通过额外的控制变量来消除混杂变量的影响,但却不慎控制了与因变量间存在中介作用的变量。
偏差发生的常用情况:
避免过度控制偏差的策略:尽可能不控制中介变量
混淆偏差(Confounding Bias):指混淆路径图中存在的混淆变量造成的偏差,即因果变量之间存在未截断的混淆路径,导致变量之间的相关性不仅包含因果关系,也包含非因果关系。
偏差发生的常用情况:
避免混淆偏差的策略:截断混淆路径,将混淆变量固定为常量值。
如图所示:右图存在未截断的混淆变量"竞争意识",该变量在因果推断中未被控制。

内生选择偏差(Endogenous Selection Bias):也称为选择性偏差,是对撞路径图中对撞变量造成的偏差,而对撞变量产生主要与样本选择和数据的生成方式相关,导致两个无相关性的变量基于对撞变量衍生出新的相关路径。
偏差发生的常用情况:
避免内生选择偏差的策略:避免对撞变量衍生新的相关性,不控制对撞变量。
本文针对因果推荐进行概述,阐述因果推断的定义,是一种推断变量之间的因果关系的统计分析方法。介绍了辛普森悖论,反映了变量关联分析时存在偏差陷阱。除此之外,本文介绍了三类变量关系图路径:因果路径、混淆路径、对撞路径。在不同关系图下,会对应产生不同的估计偏差,分别是:过度控制偏差、混淆偏差、内生选择偏差。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。