前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AI】浅谈梯度下降算法(理论篇)

【AI】浅谈梯度下降算法(理论篇)

作者头像
sidiot
发布2023-08-31 14:03:06
1950
发布2023-08-31 14:03:06
举报
文章被收录于专栏:技术大杂烩技术大杂烩

前言

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent) 是最常采用的方法之一,另一种常用的方法是最小二乘法。

目前正在学习这方面相关的内容,因此简单谈谈与梯度下降法相关的内容。

梯度

梯度下降

image.png
image.png

梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最陡下降法,但是不该与近似积分的最陡下降法(英语:Method of steepest descent)混淆。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的 反方向 的规定步长距离点进行迭代搜索。如果相反地向梯度 正方向 迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法

上述对梯度下降法的描述来自于维基百科,简单概括一下就是 选取适当的初值 x0,不断迭代更新 x的值,极小化目标函数,最终收敛

在进行算法推导时,我们还需要注意一些概念:

  1. 步长(Learning rate):步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。
  2. 特征(feature):指的是样本中输入部分,比如2个单特征的样本( (x(0),y(0)),((x(1),y(1)),则第一个样本特征为 x^(0),第一个样本输出为 y^(0)。
  3. 假设函数(hypothesis function):在监督学习中,为了拟合输入样本,而使用的假设函数,记为 hθ(x)。比如对于单个特征的 m 个样本( (x^(i),y^(i))(i=1,2,...,m),可以采用拟合函数如下: hθ(x)=θ0+θ1x
  4. 损失函数(loss function):为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。在线性回归中,损失函数通常为样本输出和假设函数的差取平方。 比如对于 m 个样本 (xi,yi)(i=1,2,...,m),采用线性回归,损失函数为:

其中 xi表示第 i个样本特征,yi​ 表示第 i个样本对应的输出,hθ(xi)为假设函数。

算法推导

先决条件: 在线性回归的前提下,确认优化模型的假设函数和损失函数。

1、确定当前位置的损失函数的梯度,对于 θi,其梯度表达式如下:

2、用步长 α (这里指机器学习中的学习率更为合适) 乘以损失函数的梯度,得到当前位置下降的距离,即

3、确定是否所有的 θi,梯度下降的距离都小于 ε,如果小于 ε 则算法终止,当前所有的 θi(i=0,1,...n) 即为最终结果,否则进入步骤4;

4、更新所有的 θ,对于 θi,其更新表达式如下,更新完毕后继续转入步骤1;

TIP

损失函数如前面先决条件所述:

则在算法过程步骤1中对于 θi的偏导数计算如下:

由于样本中没有 x0,上式中令所有的 x0^j为1,步骤4中 θi​ 的表达式更新如下:

从这个例子可以看出当前点的梯度方向是由所有的样本决定的;

后记

上述就是本篇博文的所有内容了,比较细致的介绍了梯度以及梯度下降算法相关的内容,下一篇博文 【AI】浅谈梯度下降算法(实战篇) 我们将结合代码,通过实战对梯度下降知识点进行巩固和加深印象,深入理解其中的奥义!

参考:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 梯度
  • 梯度下降
  • 算法推导
  • 后记
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档