开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对于优化收敛而言，更好的初始猜测可能更糟

对于优化收敛而言，更好的初始猜测可能更糟

在云计算领域中，优化收敛是一个重要的概念，它指的是在搜索过程中，随着搜索空间的缩小，算法逐渐找到问题的最优解。在这个问答中，我们将探讨初始猜测与优化收敛之间的关系，以及为什么更好的初始猜测可能会导致更糟糕的优化结果。

1. 初始猜测与优化收敛

初始猜测是算法在搜索过程开始时对问题的初步估计。一个糟糕的初始猜测可能导致算法在搜索过程中误入歧途，从而影响优化收敛的速度和最终结果。然而，一个更好的初始猜测并不意味着一定能得到更优的解，因为优化问题通常具有很高的复杂性。

2. 更好的初始猜测可能更糟的原因

虽然更好的初始猜测可能意味着算法在搜索过程中更快地找到最优解，但这并不是绝对的。以下是一些可能导致更好初始猜测反而更糟的原因：

搜索空间的大小和复杂性：优化问题通常具有很高的复杂性，因此搜索空间可能非常大。即使具有较好猜测的初始解在搜索空间中可能离最优解更近，但随着搜索的进行，其他更糟糕的猜测也可能在搜索空间中占据优势。
局部最优解和全局最优解：在某些情况下，可能不存在全局最优解，而只有局部最优解。这意味着更好的初始猜测可能只是局部最优解，而非全局最优解。
随机性：在优化问题中，有时初始猜测的好坏取决于随机性。例如，在模拟退火算法中，随机性可能导致更好的初始猜测在搜索过程中“衰减”得更快，从而影响最终结果。

3. 结论

虽然更好的初始猜测可能在优化收敛过程中产生更快、更有效的结果，但这并不是绝对的。在许多情况下，更好的初始猜测可能导致更糟糕的优化结果。因此，在优化问题中，选择合适的初始猜测至关重要。同时，需要考虑问题的复杂性、搜索空间的大小以及是否存在局部最优解等因素。

名词解释：

优化收敛：在搜索过程中，随着搜索空间的缩小，算法逐渐找到问题的最优解。
初始猜测：算法在搜索过程开始时对问题的初步估计。
更好的初始猜测：具有较大可能性的初始猜测，通常意味着算法在搜索过程中离最优解更近。
更糟糕的优化结果：指优化问题中，初始猜测较差导致算法在搜索过程中误入歧途，从而影响优化收敛的速度和最终结果。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数值优化的交互式教程

对于许多问题，很难直接找出最佳解决方案，但设置一个衡量解决方案效果的损失函数相对容易 - 然后最小化该函数的参数以找到解决方案。当我第一次尝试学习javascript时，我最终写了一堆数值优化程序。...这篇文章很酷的一点是代码都在浏览器中运行，这意味着您可以交互式地为每个算法设置超参数，更改初始位置，并更改正在调用的函数以更好地了解这些算法工作。...为了克服这些问题，Nelder-Mead方法根据新点的丢失动态调整步长。如果新点比任何先前看到的值更好，它会扩展步长以加速到底部。同样，如果新点更糟，它会收缩步长以收敛最小值。...设置学习率太高，它会在最小值附近疯狂振荡而不会收敛。更糟糕的是，最佳学习速率会因功能而异，因此没有一个值可以实现良好的默认值。...3.png 另一个例子到目前为止的例子只有1维或2维函数，这些函数对于优化来说并不是很有趣。他们还没有研究实际数据 - 这是大多数机器学习问题的正常情况。

6091 0

引入Powerball 与动量技术，新SGD优化算法收敛速度与泛化效果双提升 | IJCAI

，相比于传统优化而言更加困难。...另一方面，因为幂系数 γ∈[0,1），根据幂函数的作用原理，不难发现，通过引入作用于梯度的幂系数，可以有效地改善梯度消失的现象。对于离散时间模型（优化算法）在有限时间内收敛性的推导是非常困难的。...正是这一点促使[1]中作者提出了优化方法的连续时间模型，并分析了它们在有限时间内的收敛性。此外，[1]中指出了对于给定的优化问题，如何选取最优的γ在理论上是开放的。...众所周知，当涉及大规模优化问题时，初始迭代对于给定的计算约束是至关重要的。为此，[1]中也开发了几类Powerball方法的变形，它们在经验上都分别优于标准的优化方法，特别是在初始迭代中。...另一方面，相比于自适应方法SGD在收敛速度方面有所欠缺。因此，如何使得SGD可以在非凸条件下有效逃离鞍点并取得更好的收敛效果成为了热点研究领域。

9332 0

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

、如何使用数学思维来设计更好的机器学习方法等基本课题。...更深入的理论理解可以提供新的视角，并且可以帮助对现有算法进行修改和优化，也有助于提出新的算法。如果没有理论提供的概念性分析，这些新算法可能很难发现。...我们的大多数分析都将使用最大似然估计，这种估计具有很好的统计特性（它们具有所有估计量中最小的渐近方差）。但是对于大多数隐变量模型而言，最大似然在计算上很困难，并且需要进行非凸优化。...这些优化问题通常由 EM 算法解决，只能保证收敛到局部最优。...在线学习试图以两种方式解决这个问题：目前为止，为了分析一个学习算法的误差，我们必须假设训练样本是独立同分布的。然而在实践中，数据点可能是互相依赖的，甚至更糟，即它们可能是对抗生成的。

8632 0

牛顿迭代法的可视化详解

初步猜测根可能在哪里？ 2. 应用 Newton-Raphson 公式获得更新后的猜测，该猜测将比初始猜测更接近根。 3. 重复步骤 2，直到新的猜测足够接近真实值。这样就足够了吗？...作为一个例子，让我们考虑上面的函数，并做一个 x=10 的初始猜测（注意这里实际的根在 x=4）。...这当然是一个问题，并不是这种方法的唯一缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。牛顿法收敛速度为二阶，对于正定二次函数一步迭代即达最优解。...牛顿法是局部收敛的，当初始点选择不当时，往往导致不收敛；二阶Hessian矩阵必须可逆，否则算法进行困难。...（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想）。那为什么不用牛顿法替代梯度下降呢？

5311 0

Gaussian中闭壳层和开壳层之间轨道读取问题

在《广义价键计算及初始轨道的构造》一文中我们曾提到在用Gaussian得到UHF自然轨道后，对应的fchk文件中会存在两组轨道。...首先看第一种情况，以闭壳层轨道作为开壳层计算的轨道初始猜测。由于开壳层的SCF收敛比闭壳层困难，这时候可以尝试用对应的闭壳层收敛的轨道作为初猜做开壳层计算，以加速SCF收敛。...而如果去掉guess=read，用Gaussian默认的初始猜测，则需要25圈收敛。两者得到的能量相同。对于第二种情况，从以三重态的收敛轨道作为单重态的初猜。...这可能会在做三重态激发态的相关计算中遇到。在《第一激发三重态的几何结构优化》一文中我们讲过，优化三重态第一激发态是将体系的自旋多重度设为3，然后直接用UDFT进行优化。...而将开壳层计算的轨道作为闭壳层体系SCF计算的初始猜测，在原理上则不太合适，因为开壳层的计算中，alpha和beta轨道的空间部分是不相同的，下一步闭壳层计算读取哪一列轨道则会有歧义。

2K5 1

【深度干货】2017年深度学习优化算法研究亮点最新综述（附slide下载）

最近的理论（Wilson等，2017）[15] 为此提供了一些充足的论据，它指出跟带动量momentum的SGD相比，自适应学习率的优化方法更难收敛到（可能并且不太理想的）最小值点。...相对于默认的0.999，取值0.99或者0.9在它们在各自的应用中能表现更好，表明可能存在指数移动平均值的问题。...人们经常认为，像Adam这样的自适应学习速率方法对于不同的学习速率更具有鲁棒性，因为他们自己更新了学习速率。但是，即使对于这些方法，好的学习速率和最佳的学习速率之间也可能有很大的差别。...在每次重新启动时，学习速率被初始化为某个值，并且将减少。重要的是，重启是热重启，因为优化不是从头开始，而是从最后一个步骤中模型收敛的参数开始。...激进的退火使模型能够快速收敛到一个新的更好的解决方案。作者根据经验发现，热重启的SGD需要的时间比学习速率退火少2〜4倍，并且能达到相当或更好的性能。

9785 0

PySCF程序包平均场计算的一些收敛技巧

PySCF程序包平均场计算的一些收敛技巧平均场计算是 PySCF 程序包里优化得比较并全面的模块之一。...://pyscf.org/pyscf/scf.html#hartree-fock 初始猜测在平均场计算中，很多困难体系对初始猜测十分敏感，合适的初始猜测可以有效地帮助平均场收敛。...除了 ANO 作为初始猜测以外，PySCF 还提供了一系列方法对平均场计算的初始猜测进行调整。有一些体系需要特殊的初始猜测才能收敛到正确的态上，比如铁磁或反铁磁的初始猜测。...，而反铁磁的初始猜测收敛到能量较低的态上。...如果一个计算对初始猜测没有特殊要求的话，PySCF 程序包提供了一种可能的配置，综合利用了各种优化技术，对很多体系都可以实现相对默认二阶方法 3 - 5 倍的速度提升。

1.9K2 0

「糟糕」的策略梯度

选择一组初始的猜测值 ϑ0 和步骤序列 ak。初始 k=0。在模拟器中运行策略 πϑk，采样得到轨迹 τk。令 ?...容我说几句可能看起来有点离题的，任何这个形式的优化问题都等价于 u 的概率分布之上的优化问题 ?...所以下面这个方法也就是一个完全通用化的方法，用来找到关于参数分布的最大化反馈选择某个初始猜测值 ϑ0 和步骤序列 αk。初始 k=0。从概率分布 p(u;ϑk) 中独立同分布采样 uk 令 ?...很多人都分析过这种方法的复杂性，当然一点都不理想，而且高度取决于搜索空间的维度数目大小。反馈的最大大小 B 也有影响。如果函数值里有很多噪声，那么即便对于凸函数，收敛速率也只是 ?...，这还是在假定了算法的各个参数都刚好设置恰当的情况下。对于非常凸的函数，你有可能能凑出一个 ? 级别的函数解，但是这个结果对于参数的选择将会非常敏感。

1.1K5 0

调试神经网络的清单

就连简单的前馈神经网络，您也经常需要围绕网络架构、权重值初始化和网络优化做出决策 - 所有这些都可能导致机器学习代码中隐藏BUG。...如果您的模型是通过随机猜测开始的，请检查初始损失是否接近您的预期损失。在Stanford CS231n课程中，Andrej Karpathy建议如下：出于性能考虑寻找正确的损失。...对于二分类例子而言，您只需对每个类别执行类似的计算。假设你的数据是20％的0类别和80％的1类别。预期的初始损失将达到 -0.2ln(0.5)-0.8ln(0.5) = 0.693147。...如果您的初始损失远大于1，则可能表明神经网络的权重未平衡（即初始化得较差）或您的数据未正则化。...小的批量大小将会使得学习过程快速收敛，但可能会以增加噪声为代价，并可能导致优化困难。

7194 0

理论、算法两手抓，UIUC 助理教授孙若愚 60 页长文综述深度学习优化问题

恰当的神经网络这包括神经架构和激活函数。对于神经架构，你可能想用至少具备 5 个层和足够神经元的卷积网络来替换全连接网络。...为了得到更好的性能，你可能想将网络宽度增加到 20 甚至 100，并添加跳跃连接。至于激活函数，ReLU 是不错的起点，不过 tanh 和 swish 也可以。...本文将优化的益处大致分为三部分：控制利普希茨常数（Lipschitz constant），实现更快收敛，获得更好的损失分布（landscape）。...具体而言，这部分讨论了梯度爆炸/消失这一主要挑战，以及更一般的谱控制（controlling spectrum）难题，此外，第四章还综述了主要的解决方案，如初始化和归一化方法。...第五章讨论了通用算法设计：将神经网络视作通用非凸优化问题。具体而言，这部分综述了使用不同学习率的 SGD、自适应梯度方法、大规模分布式训练、二阶优化方法，以及现有的收敛和迭代复杂度结果。

5151 0

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

具体而言，CLLMs通过将任何随机初始化的n -token序列映射到尽可能少的步骤中，产生与自回归（AR）解码相同结果，来进行并行解码的训练。...每个迭代步骤可能会预测出多个正确的token（所谓的“正确”是指在贪婪采样策略下与自回归解码结果对齐），从而潜在地加速自回归解码。...最终，n -token的序列会收敛到在贪婪策略下由AR解码生成的输出。从最初的随机猜测到最终的AR生成结果的这一过程被称为「Jacobi轨迹」。...使表示为被初始化为 p 的参数 θ 的 CLLM。对于prompt x 和相应的Jacobi轨迹 J ，令 y 和 y* 分别表示轨迹上的随机状态和固定点。...CLLM在与Medusa2的比较中实现了类似或甚至更好的加速效果，同时不引入额外的推断成本（根据FLOPS和内存消耗判断）。

3531 0

神奇的Batch Normalization 仅训练BN层会发生什么

批标准化简而言之，批标准化层估计其输入的平均值（μ）和方差（σ²），并产生标准化的输出，即平均值和单位方差为零的输出。在实验中，此技术可显着提高深度网络的收敛性和稳定性。...输出平滑化：BN被认为可以平滑化优化范围，减少损失函数的变化量并限制其梯度。较平滑的目标在训练时预测效果会更好，并且不易出现问题。...长度方向解耦合：一些作者认为BN是针对优化问题的改进公式，因此可以扩展到更传统的优化设置。更详细地说，BN框架允许独立优化参数的长度和方向，从而改善收敛性。...为了对模型的性能有一个很好的了解，我们应该始终考虑随机猜测的性能。CIFAR-10数据集有十个类。因此，随机地，我们有10％的可能正确。以上方法比随机猜测要好大约五倍。...因此，我们可以认为模型具有良好的性能。有趣的是，验证准确性花了10个epoch才开始增加，这清楚地表明，对于前十个epoch，网络只是尽可能地拟合数据。后来，准确性大大提高。

9091 0

调试神经网络的checklist，切实可行的步骤

即使对于简单的前馈神经网络也是这样，你经常会在网络体系结构做出一些决定，重初始化和网络优化——所有这些会都导致在你的机器学习代码中出现bug。...如果模型一开始就随机猜测，检查初始损失是否接近预期损失。在Stanford CS231n coursework中，Andrej Karpathy提出了以下建议：在随机表现上寻找正确的损失。...如果你的初始损失比1大得多，这可能表明你的神经网络权重不平衡(即初始化很差)或者你的数据没有标准化。 3....你可能会遇到以下错误：梯度更新的表达式不正确权重更新没有应用梯度消失或爆炸如果梯度值为零，这可能意味着优化器中的学习率可能太小，或者你遇到了上面的错误#1，其中包含梯度更新的不正确的表达式。...小的batch size将导致学习过程以训练过程中的噪声为代价快速收敛，并可能导致优化困难。

4531 0

【深度学习 | 梯度那些事】梯度爆炸或消失导致的模型收敛困难？挑战与解决方案一览，确定不来看看？

梯度爆炸是指在使用梯度下降算法时，由于某些原因导致梯度值变得非常大，从而对参数的更新产生巨大影响。这可能会导致模型无法收敛或收敛速度过慢。...对于Sigmoid函数而言，在输入非常大或非常小时，输出值会趋向于1或-1，并且导数几乎为0；对于Tanh函数而言，在输入非常大或非常小时，输出值也会趋向于1或-1，并且导数同样几乎为0。...梯度消失是指在深层神经网络中，**随着反向传播过程的进行，较早层的权重更新变得非常小或趋近于零，导致这些层对整个网络参数的学习贡献几乎为零。**这可能会导致模型无法有效地学习和优化。...采用合适的权重初始化策略，例如Xavier初始化或He初始化。 Xavier初始化和He初始化是两种常用的权重初始化策略，它们旨在帮助神经网络模型更好地学习和收敛。...理解和解决梯度消失问题是构建有效深层神经网络模型非常重要的一步。通过合理选择参数初始化、优化算法以及网络结构设计等手段可以克服这个问题，并提高模型的性能和收敛速度。

9444 0

推荐收藏 | 掌握这些步骤，机器学习模型问题药到病除

即使对于简单的前馈神经网络也是这样，你经常会在网络体系结构做出一些决定，重初始化和网络优化——所有这些会都导致在你的机器学习代码中出现bug。...如果模型一开始就随机猜测，检查初始损失是否接近预期损失。在Stanford CS231n coursework中，Andrej Karpathy提出了以下建议：在随机表现上寻找正确的损失。...如果你的初始损失比1大得多，这可能表明你的神经网络权重不平衡(即初始化很差)或者你的数据没有标准化。 3....你可能会遇到以下错误：梯度更新的表达式不正确权重更新没有应用梯度消失或爆炸如果梯度值为零，这可能意味着优化器中的学习率可能太小，或者你遇到了上面的错误#1，其中包含梯度更新的不正确的表达式。...小的batch size将导致学习过程以训练过程中的噪声为代价快速收敛，并可能导致优化困难。

5074 0

机器学习——经典十大算法之EM算法

是的，你没有看错，EM算法的本质非常简单粗暴：既然我们无法求解隐变量，我们就不求了，我们直接假设一个初始值代入计算，有了结果之后再进行迭代。...虽然结果还可以，但这种方法依然比较粗糙，我们还有更好的办法。...这样做当然是可以的，但感觉不够严谨，因为我们直接猜测有些武断，并不一定准确。那有没有更好的办法？...其实是有的，相比于直接猜测某个轮次当中选择了哪一枚硬币，我们可以用选择硬币的概率来代入来计算期望，这样的效果会更好，比如根据刚才的计算结果，我们可以算出每个轮次当中选择硬币的概率： ?...同理当我们有了的取值之后，又可以来优化z。这种两个变量固定一个，轮流优化另一个的方法叫做坐标上升法，也是机器学习当中非常常用的求解方式。 ? 如上图所示，这个一圈一圈的是损失函数的等高线。

1K3 0

NTIRE2022视频增强冠军方案是怎样炼成的？

3.3 三步收敛大家知道，MSE 和 PSNR 只差一个对数关系。因此，优化 MSE 本质上等价于优化 PSNR。但奇怪的是，NTIRE21 中近半队伍都使用 Charbonnier 损失函数。...最后一步是考虑到自制数据集可能和官方数据集的制作流程有一定偏差，且官方数据集更能反映主办方对数据的偏好。 3.4 渐进收敛直接训练一个大模型是非常困难的。...具体而言，我们每一次训练增加 10 个 residual block，从 5 加到 55（此时 32GB V100 显存打满），一共分 6 次训练和收敛。...4.2 深入挖掘领域内长期工作为了更好地改进基础模型，我们对领域内的长期工作者进行了研究。其中一定会有心得体会和关键成果。以 BasicVSR 提出者 Kelvin 的工作为例。...我们怀疑，替换前端 Residual block，会导致后端模块要基于随机初始化的前端 Swin block 重新训练，因而效果不佳，在训练初期有非常大的误差传播。

9625 0

2018值得尝试的无参数全局优化新算法，所有测试取得最优结果

贝叶斯优化：使用像MATLAB的bayesopt之类的工具来自动选择最佳参数，然后你会发现贝叶斯优化比你的机器学习算法有更多的超参数，你变得沮丧，然后回头使用猜测和检查或网格搜索。...在有一个良好的初始猜测的前提下进行局部优化：这就是MITIE的方法，它使用BOBYQA算法，并有一个精心选择的起始点。...绝大多数人只会用猜测和检查的方法。但应该有更好的方法。我们都希望像贝叶斯优化这样的黑盒子优化策略有用，但根据我的经验，如果你没有将其超参数设置为正确的值，那么它还不如专业的猜测和检查。...特别是，它们都是用数学方法证明的，并且在经验上也证明了在许多非平凡的情况下，这种方法比随机搜索更好。他们还将该方法与贝叶斯优化等其他算法进行比较，并显示出其竞争力。...整个算法的表现对于这里使用的特定penalty的值是不敏感的，只要它大得合理，那么大部分时间σ值都是0，同时仍然阻止k变成无限，这是我们想要的。

1.3K6 0

别盲目调参！深度学习要先找到最佳策略

拿作者举的第一个例子来说，如果你不能够发现甚至创造新的投篮策略，而只是不断优化朱利安式的投篮技术，你永远都不可能达成最好的投篮效果。...然而有趣的是，随着年龄的增长，朱利安的胸部投球技巧并不会完美地切换到手腕投球模式。唯一可以切换到手腕投球模式的方法就是训练新的投球风格。对于我们观察人士而言，上述投球模式的转变似乎非常明显。...你可以这样来思考这个问题，直到某个事件出现“某种作品”（即存在表面上的某些策略），此时它还没有开始收敛；你不可能熟练掌握非策略事件。...当然，第一次就能收敛至最佳策略处也是可能的，但篮球中胸部投篮的事实告诉我们，我们的第一种策略可能是带有偏见的。...你需要这样一个假设：另一种方法在你尝试之前就能变得更好。在打篮球的例子中，对手可能会在你试图投篮的时候把一只手放在你的脸上，这可能会激发出你的这一想法：“要是我能投的更高就好了。”

1.4K8 0

【深度学习 | 梯度那些事】梯度爆炸或消失导致的模型收敛困难？挑战与解决方案一览，确定不来看看？

梯度爆炸是指在使用梯度下降算法时，由于某些原因导致梯度值变得非常大，从而对参数的更新产生巨大影响。这可能会导致模型无法收敛或收敛速度过慢。...对于Sigmoid函数而言，在输入非常大或非常小时，输出值会趋向于1或-1，并且导数几乎为0；对于Tanh函数而言，在输入非常大或非常小时，输出值也会趋向于1或-1，并且导数同样几乎为0。...梯度消失是指在深层神经网络中，随着反向传播过程的进行，较早层的权重更新变得非常小或趋近于零，导致这些层对整个网络参数的学习贡献几乎为零。这可能会导致模型无法有效地学习和优化。...采用合适的权重初始化策略，例如Xavier初始化或He初始化。 Xavier初始化和He初始化是两种常用的权重初始化策略，它们旨在帮助神经网络模型更好地学习和收敛。...理解和解决梯度消失问题是构建有效深层神经网络模型非常重要的一步。通过合理选择参数初始化、优化算法以及网络结构设计等手段可以克服这个问题，并提高模型的性能和收敛速度。

1.2K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭