为了简化上面的公式,更容易理解回传backprop,做如下两个变换。
用Ap(k)表示权重W和输入X两个矩阵相乘,用Yp(k)表示nabla梯度和拉格朗日乘数的乘积。
简化7式和6式的两个子式如上图。
7式为拉格朗日代价函数对权重求偏导,即在梯度下降过程中权重更新如下图
lambda为学习率learning rate。
整理对三个变量求偏微分的结果如下:
第一个等式为前传,权重和输入作用的结果作为激活函数的输入,而激活函数的输出又作为下一层的输入。
第二个等式为回传,等式右边的权重和Y都是k+1和k层的梯度左右可得k层的Y,由此根据k层的Y和k层的权重以及k-1层的梯度可得k-1层的Y,依次向最初输入层传递,故为回传。
第三个为权重的更新,这是代价函数对权重求偏导的结果,代价函数必须一阶可导。
由于神经网络层是有限的,故需加上下面两个边界条件。
第一个式子表示Xp(0)为最初的输入层。
第二个式子表示最后一层即第N层是不能再输出到下一层的,此时需要和desirable data即监督学习中label value做比较,求误差。
领取专属 10元无门槛券
私享最新 技术干货