数学上的假设检验从根本上来说是基于哲学上的反证法,目的是为了确定差异。我们说一个检验对应一个零假设,p值实际上是零假设发生的概率,p值过低则拒绝零假设;1-p则是备择假设发生的概率。也就是说,当我们在假设检验中去计算p值,我们实际上想知道的是备择假设(一般也是我们想要的结果)的发生概率。因此判断多重比较的关键在于梳理清你所做的假设体系。
互相独立的检验,就会有互相独立的假设体系,这时候互不干扰,不构成多重比较。假如我们要研究农村和城市儿童的身高问题,我们就从城市和农村各选几十名儿童,分别测试他们的身高,进而进行假设检验,然后做出结论。这时候假设体系是:
零假设:身高有差异
备择假设:身高无差异
过一阵子,我们又想研究农村和城市儿童的营养摄入问题,这时候我们仍然可以继续选取上次的样本,检测他们日常蛋白质摄入量,再次进行假设检验,这时候的假设体系是:
零假设:营养有差异
备择假设:营养无差异
这时候前后两个检验都是独立的,尽管他们都来自相同样本,然而你只是在不同时间点完成上司的任务罢了。然而过一阵子,上司想知道是不是农村和城市儿童营养摄入和身高都存在差异,进而推断因为营养摄入差异导致身高存在差异。这时候你还能直接拿上次两个检验结果来用吗?这时候两个检验就不是独立的了,因为为这时候实际的假设体系是:
零假设:身高无差异,营养无差异
备择假设1:身高有差异,营养无差异
备择假设2:身高无差异,营养有差异
备择假设3:身高有差异,营养有差异
上司的要求就决定了我们需要两次检验都为真,这时候你真正想要证明的是备择假设3。假如你直接取用上次的p值,发现他们都小于0.05,然而事实上他们拒绝的假设是零假设也即身高无差异,营养无差异,并不能拒绝备择假设1和备择假设2。假如你仅根据两次检验单独的p值做出备择假设3的结论,就会存在假阳性!因此这时候构成多重比较,需要对p值进行校正。这也是为什么校正后的p值有时候叫错误发现率(false discovery rate,FDR),也即假阳性率。假如FDR小于0.05,也即假阳性率低于0.05,是可以接受的。
综上所述,构不构成多重比较,从表面来说取决于你要做的结论,从根本上来说取决于你结论背后的假设体系。不同p值校正方法详见往期文章:相关性分析与p值校正。
参考文献:
Curran-Everett,D. Multiple comparisons: philosophies and illustrations. American Journal of Physiology-Regulatory, Integrative and ComparativePhysiology 279, R1-R8,doi:10.1152/ajpregu.2000.279.1.R1 (2000).
—END—