腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6939)
视频
沙龙
2
回答
是否总是保证损失函数的
收敛
性?
、
(i)对于凸损失函数(即碗形),保证批
梯度
下降
最终
收敛
到全局最优,而不保证随机
梯度
下降
。(4)对于凸损失函数(即碗形),既不保证随机
浏览 0
提问于2020-08-13
得票数 4
回答已采纳
1
回答
机器学习中的优化方法
、
、
我在ML领域没有太多的知识,但从我天真的观点来看,在训练中性点网络时,似乎总是使用
梯度
下降
的一些变体。因此,我想知道为什么没有使用更高级的方法,例如SQP算法或内点方法。这是不是因为训练中性网总是一个简单的无约束优化
问题
,而上述方法是不必要的?任何洞察力都会很好,谢谢。
浏览 0
提问于2018-02-22
得票数 2
1
回答
梯度
下降
算法和不同的学习率
、
、
在
梯度
下降
算法中,我们是否可以在算法的每次迭代中选择不同的学习率,
直到
它
收敛
?
浏览 30
提问于2020-04-24
得票数 0
2
回答
梯度
下降
收敛
性如何判定
收敛
性?
、
我通过在线资源(即coursera的机器学习)学习了
梯度
下降
。然而,提供的信息只说重复
梯度
下降
,
直到
它
收敛
。if (change_in_costfunction > precisionvalue) {} 或者,我想知道是否另一种确定
收敛
性的方法是观察系数接近它的真实值change_in_coeffic
浏览 10
提问于2013-06-25
得票数 10
回答已采纳
1
回答
在协同过滤的
梯度
下降
中,x和theta是同时更新的吗?
、
、
、
、
他还说,它可以同时完成,并给出了
梯度
下降
算法: ? 我想问x和theta是否同时更新。例如,对于每次迭代:在对x执行单个
梯度
下降
后,我是否使用新的x值重新计算平方误差和,然后对θ执行
梯度
下降
,然后重复
直到
收敛
。或者我在x上执行一次
梯度
下降
,使用相同的平方误差和,对theta也执行
梯度
下降
浏览 37
提问于2020-11-25
得票数 0
1
回答
对于
梯度
下降
,成本函数曲线实际上是如何计算的:即模型随机选择权重的次数?
、
、
据我所知,为了计算简单线性回归的权重和偏差,它遵循
梯度
下降
算法,该算法致力于寻找成本函数(曲线)的全局最小值。该成本函数是通过随机选择一组权重,然后计算所有记录的平均误差来计算的。
浏览 5
提问于2021-07-18
得票数 0
1
回答
梯度
下降
超过2个θ值
、
、
梯度
下降
算法如下:(取自Andres课程)如果有超过2个θ参数(特征权重),该算法应该如何实现?如果包括额外的θ值:重复
直到
收敛
,换句话说,
直到
theta0,theta1,theta2不再改变?
浏览 1
提问于2015-11-21
得票数 1
回答已采纳
1
回答
Scikit学习中的线性回归和
梯度
下降
?
、
、
、
在机器学习的coursera课程中,它说
梯度
下降
应该
收敛
。我们如何在现实世界中使用scikit-learn中的线性回归?或者为什么scikit-learn不在线性回归输出中提供
梯度
下降
信息?
浏览 0
提问于2015-12-26
得票数 26
回答已采纳
1
回答
小批渐变体面和
梯度
体面之间是否有固定的关系?
、
、
对于凸优化,类似于logistic回归。因此,经过10次mini batch gradient decent更新。我可以通过一次gradient decent 更新获得相同的结果吗?我知道mini batch gradient decent有时可以避免局部最优。,但它们之间是否有固定的关系.
浏览 3
提问于2014-10-16
得票数 4
1
回答
用Python的numpy实现随机
梯度
下降
、
、
、
我必须使用python numpy库实现随机
梯度
下降
。
浏览 4
提问于2016-10-11
得票数 2
回答已采纳
2
回答
梯度
下降
:我们是否在GD中的每一步迭代所有的训练集?或者我们是否为每一套培训更改GD?
、
我用一些在线资源自学了机器学习,但我有一个关于
梯度
下降
的
问题
,我无法弄清楚。如果我在每个训练示例之后执行
梯度
下降
,那么我的系数将非常不同,如果我在所有10个训练示例之后执行
梯度
下降
。求和项仅包括1个训练示例 继续,
直到
收敛
或
浏览 8
提问于2013-06-24
得票数 7
回答已采纳
4
回答
梯度
下降
方程和正规方程给出了多元线性regression.Why的不同θ值?
、
、
、
梯度
下降
的矢量化实现 J_history(2 * m) * (X * theta - y)' * (X * theta - y);theta = pinv(X' * X) * X' * y; 对于X和y的相同值,这两个实现
收敛
于正规方程给出了正确的答案,而
梯度
下降
给出了错误的答案。
浏览 2
提问于2017-06-03
得票数 0
1
回答
保证矩阵求逆更安全的数值方法是什么?
、
、
我正在尝试开发一个结构方程模型的算法(在
梯度
下降
的框架下) problem.There是一个参数矩阵B(n*n),它的所有对角元素都固定为zero.And。我的
问题
是,我们如何确保(I-B)在迭代中不是奇异的?在这个
问题
中,由于目标函数的区域不是整个R^n空间,似乎
梯度
下降
收敛
的严格条件将不是satisfied.Standard教科书将假设的目标是在整个R^n空间中有一个区域space.It似乎
梯度
下降
不会有保证的
收敛</em
浏览 30
提问于2019-01-29
得票数 1
1
回答
如何在大训练集和小内存上训练神经网络
、
、
、
、
我必须在第一个部件上进行训练迭代,然后在设备上释放它,然后将第二个部分发送到设备上,然后对其进行训练,等等……然后对
梯度
结果进行总结。 当我必须把所有的数据都推到PCIe总线上时,是不是太慢了?
浏览 2
提问于2014-01-17
得票数 1
1
回答
我应该考虑所有基于
梯度
下降
的算法的特征缩放吗?
在多元线性回归一节的课程机器学习中,Andrew提供了以下关于
梯度
下降
的提示:将特性转换为大约-1 绘图成本与迭代若要确定
收敛
速度是否太慢(请尝试更大的alpha) 以确定要
收敛
的迭代次数。这些技巧适用于所有使用不同机器/深度学习算法的
梯度
下降
问题
,还是仅适用于多元线性回归?
浏览 0
提问于2018-02-27
得票数 2
回答已采纳
3
回答
我的随机
梯度
下降
的实现正确吗?
、
、
、
我试图发展随机
梯度
下降
,但我不知道它是否是100%正确的。 Iteration #100 - Cost = 7.047196e-001 % Second ti
浏览 1
提问于2014-01-25
得票数 9
回答已采纳
1
回答
为什么Relu比Sigmoid激活函数表现出更好的
收敛
性?
、
与sigmoid激活函数相比,Relu在
梯度
下降
优化中具有更好的
收敛
性能。据我所知,当Z接近小于0时,
梯度
下降
的升升太慢,但当z小于0时,relu也有
梯度
0,那么差别是什么?
浏览 0
提问于2021-08-16
得票数 0
3
回答
梯度
下降
收敛
、
、
他在谈论和解释
梯度
下降
,但我不能不注意到一些事情。以我的数学背景,我知道如果我试图找到函数的全局最小/最大值,我必须首先找到所有的临界点。这门课程讨论的是GD的
收敛
性,但它真的能保证
收敛
到全球最小值吗?我怎么知道它不会卡在马鞍上?做一次二阶导数测试不会更安全吗?如果我的函数是可微的,它似乎是合理的,它
收敛
到一个局部最小值,而不是全局最小值。我试图寻找一个更好的解释,但似乎每个人都认为这是理所当然的,毫无疑问。有人能给我指明正确的方向吗?
浏览 0
提问于2019-03-26
得票数 1
1
回答
在机器学习中,
收敛
速度究竟是指什么?
、
、
、
我对“
收敛
速度”一词的理解如下:因此,以
收敛
速度来衡量:有人能证实我的猜测是否属实,如果不解释它的意思呢?
浏览 0
提问于2021-05-11
得票数 0
回答已采纳
1
回答
每次我们运行一个神经网络时,对于不同大小的训练和测试数据,它的预测精度会有所不同吗?
、
我有一个函数y=(x1)^2 + 2*(x2 )+(x3 )+ 3*(x4)^3,我必须预测它的值。因此,我在输入层有4个输入,在输出层有1个隐藏层和2个节点。如果[1 0]为正,则默认输出为[0 1],如果y为负值,则为[0 1]。当我用200个例子训练我的数据时,我得到了94%的训练数据和86%的测试数据(隐藏层中的4个节点)。所以现在你能建议我怎样才能提高我的准确度达到98% -
浏览 6
提问于2016-06-25
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
梯度下降算法之随机梯度下降
下降方法:坐标下降、梯度下降、次梯度下降
批量梯度下降与随机梯度下降的区别
梯度下降
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券