封面图片来源于网络
在上一期第48期 分析阶段(A)相关性分析及回归介绍中已经介绍了线性回归的内容。本期将针对一元线性回归进行介绍。
首先,如果我们假定有两个变量,其中:
X是自变量,其值时可以控制或精准测量的,它是非随机变量。
Y是因变量,对给定的X值,Y的取值事先不确定,Y是随机变量。
如果我们需要根据某人的鞋子尺寸(X)来估计其身高(Y)。第一步需要评估的是X和Y是否具有相关性。这在之前一期的内容已经有了介绍:通过数据可视化的工具即散点图线看一下是否存在线性相关(R相关系数)。这只是进行回归分析的第一个步骤。要完成简单线性回归我们一般需要几个步骤。
先看一下如何进行回归计算的。
还是以某人的鞋子尺寸(X)来估计身高(Y)的例子。如下图:
其中:
根据计算,y=β0+β1x y=122.59+4.43x
如果此时我们已知某人的鞋子尺寸为6,那么根据方程计算后,可以得出该人的身高为:
y=122.59+4.43x
=122.59+4.43*6
=149
但我们无法确定该计算出的身高有多大的可信度。此时,我们需要利用Minitab帮助我们计算出回归方程,同时还要在确定自变量(X)已知时,得出的因变量(Y)。还能告诉我们该因变量的置信区间和预测区间。
进行相关性和回归分析的步骤总结如下:
第一步:将数据可视化-利用散点图;
第二步:建立模型(X和Y),输出回归方程式;
第三步:检查模型的可用性,看一下回归分析结果中的P值是否小于0.05;残差是否正常;是否受模型中的拟合值、时间及X的影响;
第四步:检测模型的质量:R-sq是否足够大;S(无法解释变异)是否足够小。
接下来我们还是以鞋子尺寸和身高的例子解释如何进行一元线性回归。
在收集到相关的数据之后,选择“图形”-“散点图”,看一下X和Y的图形是否基本成直线。之后,选择“统计”-基本统计量-相关,显示如下图:
从图中可以看出,R=0.927与1比较接近,故我们可以认为X和Y的相关性较好。目前我们已经完成了第一步的工作。
之后我们需要利用Minitab建立模型并利用方法分析法去评价模型的质量(回归方程的显著性检验)。
选择“统计”—“回归”-“回归”,如图
“响应”中输入身高,“预测变量”中输入鞋尺寸;点击“图形”选项,选择“四合一”如图
点击“确定”,对话框如下:
图中显示,鞋尺寸和身高存在线性关系,其线性方程为:
身高 =123 + 4.43 鞋尺寸
其中:“常量”对应的P值无实际意义;“鞋尺寸”对应的P值是用于对预测值斜率的的检验,如果P值显示拒绝H0则说明该方程的预测值是可靠的;
“R-sq”也叫拟合优度也叫可决系数,是使用该线性模型可以解释响应变量变化的百分比,可以用来描述回归直线对观测值的拟合程度。一般情况下我们只需看Adj R-sq,此例中的Adj R-sq为84.4%,我们认为该模型可以解释响应变量的84.4%。
关于“R-sq”和“Adj R-sq”做如下澄清:
-为了消除引入过多变量对R-sq提高的表面增加,引入了“Adj R-sq”;
-在样本容量一定的情况下,增加解释变量必定使得自由度减少;
-所以调整的思路是:
将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
因此,总体来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。由此,我们可以根据对话框中的“R-sq”和“Adj R-sq”是否差异较大(大于10%)来判定样本量n是否足够。
在方差分析的对话框中,P值是判定回归方程显著性的指标,且只有一个X时,和之前提到的P值是相等的。在本例中的P值等于0,所以我们认为该回归方程式显著和可用的。
一旦我们确定了回归方程显著且可用,我们将就可以根据固定的一个自变量(X)预测可能的输出(Y)。而且还可以计算出该输出的95%的置信区间。
下一期我们将介绍如何利用回归方程在已经固定X的前提下,计算出可输出的Y,并确定该输出的置信区间和预测区间。
在线性回归的分析过程中出现了两个区间:置信区间及预测区间都是针对预测结果的可信区间,那么二者之间有什么区别呢?
长按下图二维码或搜索“卓越六西格玛”关注个人微信公众号
领取专属 10元无门槛券
私享最新 技术干货