例如,产生的网络将完全是一个“白盒”,来自随机初始化的反向传播不再是训练网络的唯一选择(正如我们将在第 5 节通过大量实验验证的那样)
1.2.1
为了解决这个问题,我们的框架使用标签 y 作为唯一的辅助信息来帮助学习多样的但不同的...因此,尚不完全清楚为什么这两种看似相反的启发式方法似乎有助于学习好的特性。有没有可能两种机制都需要,但各自作用于数据的不同部分?...1.4
在本文中,我们试图通过从第一性原理推导出一类深层(卷积)网络来提供上述问题的一些答案,并对深层神经网络提供一个恰当的解释。...我们认为,现代深度(卷积)神经网络的所有关键特征和结构可以自然地从优化速率降低目标中导出,该目标寻求数据的最佳(不变)线性区别表示。...然而,如此获得的网络实际上可以通过反向传播来进一步微调,以获得更好的性能,正如我们的实验将显示的那样。