跳过连接允许我们的梯度从152层一直到CNN的第一层或第二层。但是中间层呢?这些中间层中的反向传播是完全不相关的,那么我们甚至可以在resnet中学习吗?
发布于 2019-03-23 19:36:48
这些中间层中的反向传播并不是完全无关紧要的。中间层相关性的基本思想是,当添加新的层时,ResNet不断提高其错误率(从34层的5.71 top5错误到152层的4.49 top5错误)。图像有很多奇点和复杂性,微软的人发现,当你处理消失的梯度问题时(通过馈送),你可以通过更多的层在整个网络中获得更多的知识。
添加残差块的想法是为了防止梯度消失问题,当你得到太多层时…但中间层也会在每个训练步骤中更新,并且它们也在学习(通常是高级特征)。
如果问题不是太复杂,具有许多层的卷积神经网络往往会过拟合,因为它的152层具有学习许多不同模式的能力。
https://stackoverflow.com/questions/55314490
复制相似问题