在Dropout的情况下,模型是共享参数的,其中每个模型继承的父神经网络参 数的不同子集。参数共享使得在有限可用的内存下代表指数数量的模型变得可能。...即使是 10 − 20 个掩码就 足以获得不错的表现。
然而,有一个更好的方法能得到一个不错的近似整个集成的预测,且只需一个 前向传播的代价。...不出意外的话,使 用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭 代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。...Dropout强大的大部分是由于施加到隐藏单元的掩码噪声,了解这一事实是重要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是 对输入原始值的破坏。...破坏提取的特征而不是原始值,让破坏过程充分利用 该模型迄今获得的关于输入分布的所有知识。
Dropout的另一个重要方面是噪声是乘性的。