转载请注明出处,若侵权请联系作者删除!
上一节,实际已经通过平均值简化了多元线性回归方程,得出a、b的求解公式为:
这一节,换个思路,通过向量思想求多元线性回归方程:
假设预测值
与真实值
之间存在的误差为
,则有:
用向量表示如下:
假设所有样本相互独立,且误差存在上下震荡(即预测值
与真实值
的误差上下波动),可以认为
是随机变量,而足够多的随机变量叠加后形成的分布,根据中心极限定理,它是服从误差均值为0,方差为平方的正态分布的。结合正态分布的概率密度函数:
将公式中的误差代入概率密度函数:
前面假设每个样本互相独立,即每个样本发生的似然概率密度为:
因直接求解每个样本的概率比较困难,需要进行积分求面积,是否有其他方式求解?
我们知道,概率密度是概率的疏密程度,对概率密度在某个区间上的积分就可以得到密度。那么,当联合概率最大(即每个样本概率相乘的联合概率最大),也即概率密度越大。反过来,当概率密度相乘最大的时候,对应的概率也最大。这样一来,每个样本的似然概率相乘后就可以得到样本的总似然概率密度:
两边取对数:
要是总似然概率最大,即总似然概率密度最大,则
的值最大,根据公式的特点、向量的转置和点乘特点:
求导,当导数为0时取到最小值:
解得多元线性回归方程的解析式解为:
领取专属 10元无门槛券
私享最新 技术干货