感觉这个是理解权重初始化的重点. 基于独立同分布的强假设: 输入的每个值都是独立同分布的, 所以和独立同分布的参数进行卷积得到结果的分布也是相同的. 所以其他的3个输出点的方差也是一样的....此处,
表示某个位置的输出值,
表示被卷积的输入,有
形状(对应于上图的黄色部分),
表示卷积核的大小,
表示输入的通道.令
,则
的大小表示一个输出值是由多少个输入值计算出来的(求方差的时候用到...有
形状,
表示的输出通道的数量.下标
表示第几层.
,
表示激活函数ReLU, 表示前一层的输出经过激活函数变成下一层的输入.
表示网络下一层的输入通道数等于上一层的输出通道数....通过(2)式可得
,则(6)式推导为
接下来求
, 通过第
层的输出来求此期望, 我们有
, 其中
表示ReLU函数....与正常的反向传播推导不一样, 这里假设
表示
个通道,每个通道
大小,
,与正向传播的时候一样,
有
个通道,
有
个通道.
的大小为
,所以
的形状为
.