在之前的推文中,我曾向大家介绍了正态分布,在不少案例中也对数据使用过正态性检验方法,对正态分布这个知识点不是很了解的读者可以阅读下面的这两篇延伸文章:
在开展很多种统计分析方法之前,都需要先对数据进行正态性检验,SPSS中进行正态性检验的方法有两种,它们分别是:
柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验;
夏皮洛-威尔克检验(Shapiro—Wilk test),简称S-W检验。
大部分时候,这两种方法得到的检验结果大体相同,以致于很多人都忽视了这两种检验方法的区别。
但在进行数据的正态性检验的时候,我们有必要对这两种方法有基本的了解,使我们得出的分析结论更科学、更有说服力,更有的放矢。
因此,我将在本文向大家介绍这两种检验方法的区别。
1、两种检验方法得到的结果不一样
首先我在SPSS中生成了一组30行的随机数,并对这组随机数进行了正态性检验,得到的正态性检验结果如下图所示:
上图中,使用K-S检验得到的显著性检验P值=0.024,小于0.05,表明这组数据不满足正态分布;而使用S-W检验得到的显著性检验P值=0.054,大于0.05,表明这组数据满足正态分布。
此时,我们应该倾向于接受哪种检验方法得出的结论呢?
我们注意到这组数据仅30行,是一个小样本数据,如果数据量在3-50之间,我们倾向于看S-W检验的结果,因此,这个案例中我们更倾向于认为这份数据满足正态分布。
2、仅显示一种正态性检验结果
接着,我在SPSS中新生成了一组有5001行(M=5,SD=2)的正态分布随机数,并再次对这组数据进行了正态性检验,得到的正态性检验结果如下图所示:
上图中只显示了一种正态性检验方法 —— K-S检验,真显著性检验P值的下限=0.200,远大于0.05,验证了这组数据满足正态分布。
可是这组数据为什么只显示了K-S检验这一种方法的分析结果呢?
这是因为K-S检验适合用于大数据样本的正态性检验,当样本的数据量超过50行时,它被认为是一个大样本,我们倾向于看K-S检验的分析结果得出结论;当样本的数据量超过5000行时,SPSS仅显示K-S检验这一种检验方法。
本案例中,数据有5001行,所以只显示了K-S检验这一种检验方法。
综合上述讨论,我们知道:
当分析小于50行的小样本数据时,我们倾向于看S-W检验得到的正态性检验结果;
当分析大于50行的大样本数据时,我们倾向于看K-S检验得到的正态性检验结果;
当数据量大于5000行时,SPSS只会显示K-S检验这一种检验方法。
以上是一个大家在开展统计分析过程中常容易忽视的知识点,希望大家能记住它。
领取专属 10元无门槛券
私享最新 技术干货