基本形式
线性模型形式简单、易于建模,但却蕴含着机器学习中的一些重要思想。线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
f(x)= \omega_1 x_1 + \omega_2 x_2 + \cdots + \omega_d x_d + b
f(x)=ω
1
x
1
+ω
2
x
2
+⋯+ω
d
x
d
+b
一般向量形式写成
f(x) = \omega^T x + b
f(x)=ω
T
x+b
线性回归
最小二乘法
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离之和最小(也称残差平方和最小)【残差:实际观测值和预测估计值之差】。其数学表达式为:
\min _{\omega} {||X \omega - y||}_2^2
ω
min
∣∣Xω−y∣∣
2
2
求解
\omega
ω
和 b 使
E_(\omega,b)=\sum_^m(y_i - \omega x_i - b)
E
(
ω,b)=∑
i=1
m
(y
i
−ωx
i
−b)
最小化的过程,称为线性回归模型的最小二乘“参数估计”。
正则化
L1正则
L2正则
Lasso 回归
Lasso 是估计稀疏系数的线性模型。它是由一个带有L1-norm的正则项的线性模型。最小化目标函数是:
\min_\omega \frac}||X\omega - y||_2^2 + \alpha ||\omega||_1
ω
min
2n
samples
1
∣∣Xω−y∣∣
2
2
+α∣∣ω∣∣
1
岭回归(Radge)
岭回归就是带L2系数惩罚的线性模型,
\min_\omega||X\omega - y||_2^2 + \alpha||\omega||_2^2
ω
min
∣∣Xω−y∣∣
2
2
+α∣∣ω∣∣
2
2
逻辑回归(对数几率回归)
广义线性模型
一般地,对于单调可微函数
g(·)
g(⋅)
,令
y = g^{-1}(\omega x + b)
y=g
−1
(ωx+b)
这样得到的模型称为“广义线性模型”,其中函数
g(·)
g(⋅)
称为“联系函数”。
LR模型原理
从广义线性模型出发,想要做分类任务,只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对数几率函数(一种Sigmoid函数)正是这样一个常用的替代函数:
y=\frac}
y=
1+e
−z
1
即
y=g^{-1}(·)
y=g
−1
(⋅)
。有
y = \frac}
y=
1+e
−(ω
T
x+b)
1
有:
ln \frac=\omega^T x + b
ln
1−y
y
=ω
T
x+b
一个事件的几率(odds)被定义为该事件发生于不发生的概率的比值,对于二分类问题(二项分布):
odds=\frac
odds=
1−p
p
对数几率:
logit(p)=log\frac
logit(p)=log
1−p
p
由此可看出,式
y=\frac}
y=
1+e
(ω
T
x+b)
1
实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率(逻辑)回归”。
然后,为了确定参数
\omega
ω
和
b
b
,将逻辑模型中的y看做后验概率估计
p(y=1|x)
p(y=1∣x)
,则有:
ln\frac=\omega^T x + b
ln
p(y=∣x)
p(y=1∣x)
=ω
T
x+b
显然,有
p(y=1|x)=\frac}}
p(y=1∣x)=
1+e
(ω
T
x+b)
e
(ω
T
x+b)
p(y=0|x)=\frac}
p(y=∣x)=
1+e
(ω
T
x+b)
1
参数估计
广义线性模型的参数估计常通过加权最小二乘法或极大似然法。
这里使用极大似然法,其思想是找到一组参数,使得在这组参数下,样本属于真实标记的似然度(概率)最大。
L(\omega,b)= \prod{[\pi(x_i)]^[1-\pi(x_i)]^}}
L(ω,b)=∏[π(x
i
)]
y
i
[1−π(x
i
)]
1−y
i
对数似然:
lnL(\omega, b)=\sum{[y_iln \pi(x_i)+(1-y_i)ln(1-\pi(x_i))]}
lnL(ω,b)=∑[y
i
lnπ(x
i
)+(1−y
i
)ln(1−π(x
i
))]
=\sum{[y_iln \frac{\pi(x_i)}}+ln(1-\pi(x_i))]}
=∑[y
i
ln
1−π(x
i
)
π(x
i
)
+ln(1−π(x
i
))]
=\sum{[y_i(\omega \cdot x_i)-ln(1+e^{\omega \cdot x_i})]}
=∑[y
i
(ω⋅x
i
)−ln(1+e
ω⋅x
i
)]
对应的损失函数:
J(\omega) = - \fraclnL(\omega)
J(ω)=−
N
1
lnL(ω)
最优化方法
逻辑回归模型的参数估计中,最后就是对J(W)求最小值。这种不带约束条件的最优化问题,常用梯度下降或牛顿法来解决。
使用梯度下降法求解逻辑回归参数估计
求J(w)梯度:g(w):
微信号:
MasterAlgorithm
简介:智能即算法,包括但不限于算法及机器学习、深度学习。
领取专属 10元无门槛券
私享最新 技术干货