作者:红豆牛奶 审核:X 封面:自己想吧
异常值
本文主要介绍多重线性回归的假设条件:是否存在显著的异常值。我们将介绍以下三种方法:
1.离群值:主要是通过个案诊断及学生化删除残差来判断。(注:学生化删除残差的稳定性更好)
2.强杠杆点
3.影响点
例子:通过调研统计了播种面积x1、施用化肥量x2、降雨量x3、和相应的粮食产量y,试用多重线性回归来分析。(本例只针对异常值的判断给出操作步骤)
操作步骤:Step1.分析——回归——线性
【因变量】选入y,【自变量】选入:x1、x2、x3。
Step2【统计】中勾选个案诊断
Step3【残差】中勾选学生化删除残差、【距离】勾选库克距离、杠杆值
结果:
1. 生成3个新的变量,分别是SDE_1(学生化删除残差)、COO_1(库克距离)即强影响点、LEV_1(杠杆值)。
2.三种方法有各自的判断方式:
离群值:个案诊断:当 -3学生化删除残差:当-3
杠杆值:若杠杆值 0.5,则极有可能为异常值)
库克距离:若库克距离>1,则此个案极有可能为异常值。
解读方法一:从下图中各项指标的最大值、最小值可以看到以上三个指标都在安全范围内,所以可以判定不存在异常值。
解读方法二:排序,看最大值最小值的情况是否在安全范围内,也可得出不存在异常值。(以下只给出操作步骤,不再赘述。)两种方法大家可以自行选择。
领取专属 10元无门槛券
私享最新 技术干货