线性回归在机器学习中具有十分特殊的作用,这一方法虽然简单,但包含了机器学习算法的多个典型步骤,可以说,麻雀虽小五脏俱全。吴恩达的机器学习课程中,首先介绍的就是线性回归。
下面,将从统计模型出发介绍线性回归,因为这种方式可以自然的推广到其他回归方法,以及广义线性模型。
考虑下面一个问题:我们有一组房屋样本,包括房屋的面积、房间数、朝向、地理位置等信息,现在想预测每个房子的总价。
直观上,即时两个房子特征完全一样的情况下,它们的总价也不应该是完全一样的,因此,房子总价应服从一个概率分布。直觉告诉我们,这个概率分布十有八九就是正态分布。
线性回归的假设正是真值服从正态分布,即
写成具体形式就是
前面提到,即时特征完全一样,总价也会不同,那么给定一组特征,应该用哪个数值作为总价的预测值呢?
直觉告诉我们,应该用正态分布的期望值作为预测值。
这样,我们的目标就是:给定一个样本的特征x,估计其总价y的期望值,即
下面就到了“线性”的部分了,线性回归假定:
这样,对于样本i,其真值的概率为
对数似然函数就是
最大化这个似然函数就等价于最小化
求和里面的部分也就是常说的平方损失。通过梯度下降法最小化这个损失,就可以得到最优的
θ
。
领取专属 10元无门槛券
私享最新 技术干货