在数据分析过程中,得到一组数据,在分析之前,通常需要判断数据是否符合正态分布与否,再决定下一步分析方法。那么,如何判断数据是否属于正太分布呢?
其中一种方法就是画出正太分位数图,用以判断数据是否数据正太分布。
什么是正太分位数图呢?
将一个正态分布的数据集的数据从小到大排序,求每个值在样本中出现的概率,再累积画出如下图。如下图是一个均值为5.5的正太分布累计概率图。在开始和结束的位置概率增长率最小,在均值处概率增长率最大。
上图中,如果将开始和结束的位置坐标轴拉长,可以将这条曲线转化得到一条直线。再画出95%置信区间下的概率累计图,就能够知道如下的图:
两条虚线为95%置信区间下的概率图。再需要判断数据是否属于正太分布式,如果数据分布在两条虚线之间,则可以认为数据是数据正太分布的。否则,不是正态分布。
-----END-----