首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第50期 分析阶段 一元线性回归回归方程的预测

上期问题答案:

回归方程会涉及置信区间和预测区间。二者之间还是有差异的:置信区间是针对一组数据的均值而言,所以我们在讨论置信区间时强调的只会是某一组数据的居中性指标(比如:均值或中值等)的可信度区间。置信区间时不是针对某一个点而言的。而预测区间则是在方程确定之后,给定固定的输入(X),预测的输出(Y)的可信区间。因此,我们在线性回归的分析中会有置信区间和预测区间两个提法。

在第49期 分析阶段 一元线性回归(一)回归方程的建立及显著性检验中

我们介绍了一元线性回归的方程建立和质量的判定。在实际的问题解决过程中,我们会在既定的输入(X)中预测可能的输出(Y)。这时,就涉及到回归方程的预测功能。为了确定假定的回归模型是否适宜,需要用残差分析法。

残差是指实际值与拟合值之差称为残差。如在Xi处的残差ri是因变量的观测值yi与因变量的估计值 y hat之差。如下图所示:

换言之,Xi处的残差是利用估计的回归方程去预测yi而引起的误差。如果残差满足如下的假定,那么有关回归关系的显著性假设检验和区间估计的结果也就可以站住脚了:

残差均值为零且满足正态分布;

残差没有固定的规律,随机分布;

残差与x变量的数值无关;

残差之间互无影响,即相互独立;

还是以上一期的利用鞋尺寸预测身高的例子进行分析,在上期的回归方程建立时有一个“四合一”图形选项,得出下图 :

一般对于残差的诊断可以通过残差图的分析来进行。所谓残差图,其纵坐标就是残差,而横轴可以取不同的值,可以是观测时间,可以是响应变量的预测值,也可以是自变量的取值。上图的例子中:

按观测顺序的残差图:水平轴表示观测的顺序,纵轴表示对应的残差。这些残差点应在横轴上下随机波动,不应有任何上升、下降、摆动、跳跃等趋势。如果有某种趋势存在,则说明数据观测过程中受到某个未知因素的强大影响,应该找出并加以控制。

预测值y hat的残差图:横轴表示预测值y hat,纵轴表示残差。因为我们假定了残差的标准差是一个常数,它不随预测值的变化而变化。因此,这个残差图的点应该分布在一条水平的带子中。如果图中存在喇叭口,则说明了残差的标准差不是一个常数,而是随着预测值变化。可能预示着原来的模型假定可能存在问题。

残差的正态性:残差应服从正态分布,一方面我们可以画出残差的直方图,也可以展示出正态概率图。一般从图形上就可以初步断定残差数据的正态性,如果我们对正态性有疑问,可以进行正态性检验。

我们再看看上图实例中的残差的分析结果。从图形上看,概率图和直方图显示残差基本符合正态分布;与拟合值的图形中,没有发现图形随着预测值的变化而变化,也没有出现喇叭形,故我们可以认为残差的标准差是一个常数;与顺序的图中,残差点随机波动,没有出现上升、下降和摆动,故没有受到某个位置因素的强大影响。

通过以上的残差分析,故我们认为:根据鞋尺寸利用回归方程去预估这个人的身高是可以站得住脚的。在Minitab上如何实现呢?接着该例子:

统计--回归—回归;选择Y为身高,X为鞋尺寸;点击“选项”—在“新观测值的区间”中输入鞋码的尺寸“6”;点击“确定”

显示对话框如下:

这样,如果我们已知某人的鞋尺寸为6,那么我们可以利用回归方程预估的该人的身高为149.7,其95%的预测区间为(139.28, 160.13),即:我们有95%的信心相信,尺码为6的这个人的身高会在139.28至160.13之间。

如果我们需要可视化展示预测区间和置信区间的话,可以如下操作:

统计--回归--拟合直线图;选择Y为身高,X为鞋尺寸;

选择“选项”

选择“显示选项”,“显示置信区间”和“显示预测区间”,点击两次“OK”

得到如下的结果:

这样,我们就可以一目了然地看出不同的输入(X)如何转化为输出(Y),而且会显示出预测值的预测区间,展示出预测值的可信度。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180211G13TZ600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券