【AI】浅谈梯度下降算法（理论篇）

sidiot

发布于 2023-08-31 14:03:06

1950

发布于 2023-08-31 14:03:06

文章被收录于专栏：技术大杂烩技术大杂烩

前言

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent） 是最常采用的方法之一，另一种常用的方法是最小二乘法。

目前正在学习这方面相关的内容，因此简单谈谈与梯度下降法相关的内容。

梯度

梯度下降

梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法，但是不该与近似积分的最陡下降法（英语：Method of steepest descent）混淆。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的 反方向 的规定步长距离点进行迭代搜索。如果相反地向梯度 正方向 迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。

上述对梯度下降法的描述来自于维基百科，简单概括一下就是 选取适当的初值 x0，不断迭代更新 x的值，极小化目标函数，最终收敛；

在进行算法推导时，我们还需要注意一些概念：

步长（Learning rate）：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。
特征（feature）：指的是样本中输入部分，比如2个单特征的样本（ (x(0),y(0)），（(x(1),y(1)），则第一个样本特征为 x^(0），第一个样本输出为 y^(0)。
假设函数（hypothesis function）：在监督学习中，为了拟合输入样本，而使用的假设函数，记为 hθ(x)。比如对于单个特征的 m 个样本( (x^(i),y^(i))(i=1,2,...,m)，可以采用拟合函数如下： hθ(x)=θ0+θ1x
损失函数（loss function）：为了评估模型拟合的好坏，通常用损失函数来度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。在线性回归中，损失函数通常为样本输出和假设函数的差取平方。 比如对于 m 个样本 (xi,yi)(i=1,2,...,m)，采用线性回归，损失函数为：