实际上它并不是一个优化算法,而是一个自适应的重新参数化 的方法,试图解决训练非常深层模型的困难。
非常深层的模型会涉及多个函数或层组合。在其他层不改变的假设下,梯度用于如何更新每一个参数。...层 i 的输出是 hi = hi−1wi。输出 yˆ 是输入 x 的线性函数,但是权重 wi 的非线性函数。假设我们的代价函数 yˆ 上的梯度为 1,所以我们希望稍稍降低 yˆ。...然而,实际的更新将包括二阶,三阶,直到 l 阶的影响。yˆ 的更新值为
?
这个更新中所产生的一个二阶项示例是
?
很小,那么该项可以忽略不计。...答案是,新的参数可以表示旧参数作为输入的同一族函数,但是新参 数有不同的学习动态。在旧参数中,H 的均值取决于 H 下层中参数的复杂关联。在 新参数中,γH′ + β 的均值仅由 β 确定。...一层的输入通常是前一层的非线性激励函数,如整流线性函 数,的输出。因此,输入的统计量更符合非高斯,而更不服从线性操作的标准化。