反向传播是一种有效率进行梯度下降的方法
在神经网络中,我们往往有很多参数,每一个神经元与另一个神经元的连接都有一个权重(weight),每一个神经元都有一个偏置(bias).在梯度下降减小 loss function...我们设所有的参数为
,初始化的
记为
.其经过梯度下降后的取值设为
表示学习率,
表示 Lossfunction,
表示梯度.
?...假设我们需要做语音辨识,有 7-8 层神经层,每层有 1000 个神经元,这时我们的梯度向量
是一个有上百万维度的向量,这时候我们使用反向传播算法有效率的计算参数的梯度下降值....即若我们想计算 Loss function 对 w 的偏导数,只要计算训练集上所有训练数据对 w 的偏导数之和即可....Forward pass 前向传播
对于前向传播,
[即前向传播中的连接输入值(也是连接中上一个神经元的输出值)即是激活函数对该边权值的偏导数]
?