为了加速参数收敛。

原创

serena

发布于 2022-07-18 10:54:25

5235

文章被收录于专栏：社区的朋友们社区的朋友们

梯度消失（vanishing gradient）和爆炸（exploding gradient）

根据深度学习中参数更新，采用梯度下降策略会运用反向传播，而由于深度学习中网络层数肯定不止一层，根据链式求导法则，我们对浅层参数的求导会有一个连乘操作，前面层的梯度是来自于后面层梯度的乘积。

如果网络层中多层的梯度均大于1，穿过多层后求出的梯度更新会以指数形式增加（前面层的更新速度远远快于后面层）就属于梯度爆炸现象；反之如果多层梯度均小于1，前面层的更新速度远低于后面层，更新特缓慢，那么就属于梯度消失现象。

梯度消失和梯度爆炸均会引起训练不稳定。

zero-centered

很多地方会提出希望网络层的输入是zero-centered零均值化的，包括数据预处理我们也通常会讲输入数据进行一个归一化，那么数据以0为中心有什么好处呢？

为了加速参数收敛。

假设我们的网络定义为：梯度消失（vanishing gradient）和爆炸（exploding gradient）

根据深度学习中参数更新，采用梯度下降策略会运用反向传播，而由于深度学习中网络层数肯定不止一层，根据链式求导法则，我们对浅层参数的求导会有一个连乘操作，前面层的梯度是来自于后面层梯度的乘积。

如果网络层中多层的梯度均大于1，穿过多层后求出的梯度更新会以指数形式增加（前面层的更新速度远远快于后面层）就属于梯度爆炸现象；反之如果多层梯度均小于1，前面层的更新速度远低于后面层，更新特缓慢，那么就属于梯度消失现象。

梯度消失和梯度爆炸均会引起训练不稳定。

zero-centered

很多地方会提出希望网络层的输入是zero-centered零均值化的，包括数据预处理我们也通常会讲输入数据进行一个归一化，那么数据以0为中心有什么好处呢？

为了加速参数收敛。

假设我们的网络定义为：梯度消失（vanishing gradient）和爆炸（exploding gradient）

根据深度学习中参数更新，采用梯度下降策略会运用反向传播，而由于深度学习中网络层数肯定不止一层，根据链式求导法则，我们对浅层参数的求导会有一个连乘操作，前面层的梯度是来自于后面层梯度的乘积。

如果网络层中多层的梯度均大于1，穿过多层后求出的梯度更新会以指数形式增加（前面层的更新速度远远快于后面层）就属于梯度爆炸现象；反之如果多层梯度均小于1，前面层的更新速度远低于后面层，更新特缓慢，那么就属于梯度消失现象。

梯度消失和梯度爆炸均会引起训练不稳定。

zero-centered

很多地方会提出希望网络层的输入是zero-centered零均值化的，包括数据预处理我们也通常会讲输入数据进行一个归一化，那么数据以0为中心有什么好处呢？

为了加速参数收敛。

假设我们的网络定义为：

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

深度学习

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

深度学习

登录后参与评论

0 条评论

热度