首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

警惕第三变量的影响——偏相关分析

之前的推文《相关关系是怎样的关系?》向大家介绍了相关分析的概念和案例,我们可以对两个或多个变量间进行两两的相关分析。

但在多变量的情况下,变量之间的相关关系是很复杂的。比如:商品的需求与价格关系,受收入水平的影响;农作物产量与降雨量的关系,受温度的影响;等等。

此时,我们需要对其它变量的影响进行控制的条件下,分析多个变量中某两个变量之间的线性相关的程度,计算偏相关系数。这里就需要用到偏相关分析

偏相关是用于分析两个变量间相关时,为了查明是否存在第三个变量的影响而引入的。即如果A变量和B变量相关,C变量和A、B两个变量也有一定的相关性,则偏相关作用是在分析A变量和B变量之间的相关性时,剔除变量C的影响。

那我们如何知道C变量是否对A、B两个变量间的关系有影响呢?这个问题可以这样去解决:

1)先不纳入C变量,将A、B两个变量进行相关分析;

2)纳入C变量,再次进行相关分析;如果相关系数变化很大,且相关系数假设检验的结论也发生了变化,那么新纳入的C变量对A、B两个变量间的相关系数就有影响,就应该进行偏相关分析。

本文,我将以SPSS中的自带数据集health_funding.sav为案例数据,向大家介绍在SPSS中如何进行偏相关分析。以下是数据的部分截图:

这份数据涉及到4个变量,变量名对应的中文翻译如下:

funding-卫生保健基金(每 100 人的金额);

disease-发病率(每 10,000 人的比率);

visits-保健提供者拜访率(每 10,000 的比率);

citycode-城市代码,每个个案代表不同的城市。

接下来,我将对这份数据进行相关性分析。

首先,我使用双变量相关分析方法得到funding、disease和visits这3个变量之间的两两相关系数。

选择分析->相关->双变量,将funding、disease和visits这3个变量选入变量框中,其它默认选项即可,点击确定。对话框如下图所示:

得到的分析结果如下所示:

从上图的分析结果来看,funding、disease和visits这3个变量之间的相关系数都非常高,且都具有统计学意义(p=0.000

接下来,我将visits作为控制变量,再对funding和disease进行偏相关分析;以此判断在去掉visits变量的影响后,funding和disease这两个变量间的相关性是否不再显著。

选择分析->相关->偏相关,将funding和disease纳入变量框,将visits作为控制变量纳入控制框,点击确定。对话框如下图所示:

因为在之前我已经单独使用双变量相关分析方法输出了这3个变量之间的相关关系,所以在此不进行重复勾选。

设置完成后,我得到的偏相关分析结果如下图所示:

从上图的分析结果可知,在控制visits变量的影响后,funding和disease之间的相关系数值仅为0.013,且无统计学意义(p=0.928>0.05)。

也就是说,funding和disease两变量间显著的正向相关关系很大程度上受visits变量的潜在影响;表面上看,疾病率(disease)似乎是随着卫生保健资金(funding)的增加而增加了,但这可能是因为:随着卫生保健资金(funding)的增加,更多的患者选择去看医生,导致医疗保健提供者拜访率(visits)的提高。

具体情况可能还需进行更深入专业的分析才能得出,但这是一个很有代表性的案例,它告诉我们:

在有多个变量存在的情况下,两变量间的相关性往往没有它们的零阶相关系数所反映的那么大。因此,当存在可能会影响其他变量的第三因素时,使用偏相关分析能得到更科学客观的结论。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191125A07VGV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券