redunet 论文第一部分摘录
1.1
基于数据压缩和表示的新理论框架。
我们的方法在很大程度上偏离了上述努力。现有的理论工作大多将深层网络本身作为研究对象。...他们试图通过检查深层网络拟合特定输入输出关系的能力(对于给定的类标签或函数值)来理解深层网络为什么工作。然而,在这项工作中,我们主张将研究的注意力转移回数据上,并试图理解深层网络应该做什么。...随着目标的明确,也许具有所有特征的深层网络只是实现这一目标的必要手段。更具体地说,在本文中,我们围绕以下两个问题开发了一个理解深层网络的新理论框架:
1....这种表示的最优性可以通过(有损)数据压缩的原则度量来评估,称为速率降低(第 2 节)。深层网络自然可以被解释为最大化这一措施的优化方案(第 3 和第 4 节)。...这一新目标为上述目标提供了统一的观点,如交叉熵、信息瓶颈、压缩和对比学习。我们可以严格地证明,当这个目标被优化时,最终的表示确实具有上面列出的所有期望的属性。