根据深度学习中参数更新,采用梯度下降策略会运用反向传播,而由于深度学习中网络层数肯定不止一层,根据链式求导法则,我们对浅层参数的求导会有一个连乘操作,前面层的梯度是来自于后面层梯度的乘积。
如果网络层中多层的梯度均大于1,穿过多层后求出的梯度更新会以指数形式增加(前面层的更新速度远远快于后面层)就属于梯度爆炸现象;反之如果多层梯度均小于1,前面层的更新速度远低于后面层,更新特缓慢,那么就属于梯度消失现象。
梯度消失和梯度爆炸均会引起训练不稳定。
很多地方会提出希望网络层的输入是zero-centered零均值化的,包括数据预处理我们也通常会讲输入数据进行一个归一化,那么数据以0为中心有什么好处呢?
为了加速参数收敛。
假设我们的网络定义为:梯度消失(vanishing gradient)和爆炸(exploding gradient)
根据深度学习中参数更新,采用梯度下降策略会运用反向传播,而由于深度学习中网络层数肯定不止一层,根据链式求导法则,我们对浅层参数的求导会有一个连乘操作,前面层的梯度是来自于后面层梯度的乘积。
如果网络层中多层的梯度均大于1,穿过多层后求出的梯度更新会以指数形式增加(前面层的更新速度远远快于后面层)就属于梯度爆炸现象;反之如果多层梯度均小于1,前面层的更新速度远低于后面层,更新特缓慢,那么就属于梯度消失现象。
梯度消失和梯度爆炸均会引起训练不稳定。
很多地方会提出希望网络层的输入是zero-centered零均值化的,包括数据预处理我们也通常会讲输入数据进行一个归一化,那么数据以0为中心有什么好处呢?
为了加速参数收敛。
假设我们的网络定义为:梯度消失(vanishing gradient)和爆炸(exploding gradient)
根据深度学习中参数更新,采用梯度下降策略会运用反向传播,而由于深度学习中网络层数肯定不止一层,根据链式求导法则,我们对浅层参数的求导会有一个连乘操作,前面层的梯度是来自于后面层梯度的乘积。
如果网络层中多层的梯度均大于1,穿过多层后求出的梯度更新会以指数形式增加(前面层的更新速度远远快于后面层)就属于梯度爆炸现象;反之如果多层梯度均小于1,前面层的更新速度远低于后面层,更新特缓慢,那么就属于梯度消失现象。
梯度消失和梯度爆炸均会引起训练不稳定。
很多地方会提出希望网络层的输入是zero-centered零均值化的,包括数据预处理我们也通常会讲输入数据进行一个归一化,那么数据以0为中心有什么好处呢?
为了加速参数收敛。
假设我们的网络定义为:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。