让回归方程式变得精确
上次课我们学过了如何从一堆数据中,找到一个线性回归的方程式,就是酱紫的:
那么这个方程式呢,一般是拟合的样本数据,而非整个母体数据,因此用回归方程式做估计或预测样本之外的值时,难免会有一些误差。
我们前面学过了信赖区间的概念,知道在某个信赖水平下,均值μ(或其他指标)落在这个信赖区间内的概率是非常大的。
我们也可以运用这种思想,把直线方程的系数—b0和b1,也做一个信赖水平的估计,
我们可以这么说:
在95%的信赖水平下,b0取值在1.5和3之间,b1取值在5和9之间。
这样测算出来的Y值就会有个误差范围,因此就可以最大限度的让线性回归方程式达到精确。
回归方程式的信赖区间
真实的母体数据构成的线性回归方程式应该是酱紫的:
而用样本估计的方程式是酱紫的:
真实母体的线性回归方程式系数β0和β1,就是我们需要推断的值。
斜率β1的信赖区间(估计区间)是酱紫的:
在特定的某点X=x0的情况下,Y0的信赖区间(估计区间)是酱紫的:
在特定的X=x0的情况下,预测第n+1个新观察值Yn+1的信赖区间(预测区间)是酱紫的:
神马?你又忘了MSE是什么啦?
好吧,我这里把各项值都列一遍好啦:
这下各个式子代表啥都清楚了吧?
这里我们不做过多推导论证,大家只要记住结论会用就行。
答疑解惑
问题1:
估计区间和预测区间的区别?
估计区间是已发生的,就是在已知的母体数据中抽取一个样本,从而测算母体的某个已知量,比如产品质检;而预测区间是未发生的,是在已知的母体数据中抽取一个样本,从而预测某个未知量,比如股价预测。
问题2:
系数β0的信赖区间?
系数β0的信赖区间暂时不用管,因为Y的区间既然已经给出了,它也就没啥用了。
那为啥要给出斜率β1的信赖区间呢?
以上节课温度和含有率的题目为例,斜率代表的是:
每上升(或下降)1摄氏度时,含有率就上升(或下降)多少。
假设你是试验者,这个参数还是蛮有用的。
举个栗子
假设某产品的某种成分含有率,会随着温度的变化而变化。工程师现做了12次的实验,得到资料如下:
试找出线性回归方程式,并预测在95%的信赖水平下,当温度是199摄氏度时,其含有率是多少?
解:
第一步:计算基本数据。
第二步:计算回归方程式。
第三步:预测值。
领取专属 10元无门槛券
私享最新 技术干货