首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

日常统计分析Q&A(一)

这一次总结了两个大家在进行统计分析时可能会遇到的问题,一个是关于多重比较,另一个是回归分析中的多变量筛选。

Q1:在进行方差分析或R*C列联表分析时,可能会遇到如下情况:1)整体比较时有统计学意义,但进行下一步两两比较时均无统计学意义;2)整体比较时无统计学意义,但进行下一步两两比较时有统计学意义。

A1:针对第一种情况,首先这种情况是可能发生的,并且不能因此就否定整体性统计检验的结果,只能说我们还不能成功地识别出两组之间存在的差异(OpenIntro Statistics, 3rdedition,p256)。对于第二种情况,在整体性检验的时候如果已经没有统计学意义,事实上就没有再做后续两两比较的必要了,如果要做,则需要注意在进行两两比较时,是否对检验水准进行了校正,如果没有,则可能得出错误的统计结果。如果遇到这两种情况,需要谨慎地下结论,根据具体的研究内容综合考虑,因为这两种现象往往发生于算得的P值位于规定的检验水准α附近。

另外,在《卫生统计学》第七版教材上也提出了类似的思考题:

三个样本均数的比较经方差分析有统计学意义,但在多重比较中出现了‘不拒绝u1=u2,也不拒绝u1=u3,但拒绝u2=u3’的结果,该结果如何解释?

针对这个问题,按照假设检验的基本原理,该结果可解释为:第二个和第三个的总体均数不等,但还不足以认为第二个与第一个的总体均数不等,也不足以认为第三个与第一个的总体均数不等(例如:对照组与实验组1、对照组与实验组2的结果比较无统计学意义,说明差异是由抽样误差引起;实验组1与实验组3的结果比较有统计学意义,说明差异是由处理因素引起)。这个结果看上去好像是有哪里不对,但是事实上,由于统计结论具有概率性,不能按照纯数学方式递推,否则会得出荒谬的结论。

Q2:在进行多重线性回归分析时,我们往往会先进行单因素分析对拟研究的变量进行筛选,这个时候可能会出现如下情况:某些变量在单因素分析时无统计学意义,但由于这个变量很重要,在进行多重线性回归分析时仍然将这个变量纳入,并且这个时候该变量又具有统计学意义了,那么这种情况下应该如何对两种矛盾的结果进行取舍呢?

A2:针对这个问题,首先明确变量筛选的目的,即减少变量个数(降维)以排除无统计学意义的变量并且其现实意义也不大的变量,这里的现实意义是指在具体的统计分析内容中,主观认为不太重要的变量,但是为了分析的全面性需要纳入分析范畴。因此,基于这个目的,在进行单因素分析的时候,根据研究需要,为了防止遗漏主观认为重要的变量,我们可以把检验水准适当地提高一些,比如设为0.01。一般大家做多元线性回归模型都采用的是逐步法,事实上逐步法在一定程度上也起到了单因素分析筛选变量的作用,但是按照一般的分析步骤,我们都习惯了先进行单因素分析,再多因素分析,这样做也没什么问题,只是如果遇到上述问题,就把单因素分析时的检验水准提高一些,问题就迎刃而解啦。

最后唠叨几句,在进行统计分析时,一定要将统计结果和背景知识结合起来产生科学结论。p值始终是在统计学意义层面的一个小小助攻,不论p值与α值多近多远,一个实验或者一项调查是否能说明某个问题或揭示某些现象,其设计的科学性和合理性才是最终能否顺利解决问题或揭示现象的关键所在,否则所得的p值即使有意义,也可能经不起重复试验的考证。当然统计方法的正确选择也很重要啦,希望大家爱上统计学~~

欢迎大家对文章中的错误进行批评指正。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180228G1CQTC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券