底层结构(决定了选择方向)是面向任务的,上层结构是共享的。 底层结构学习将面向特定任务的输入转化为通用特征。...参与者必须用这个来学习一个良好的特征空间(将原始输入映射到某 种表示),这样当我们将这个学习到的变换用于来自迁移设定(分布 P2)的输入时,线性分类器可以在有标记样本很少的训练集上训练,泛化。...即使我们可能没有将语言 X 中的单词 A 翻译成语言 Y 中 的单词 B 的标记样本,我们也可以泛化并猜出单词 A 的翻译,这是由于我们已经 学习了语言 X 和 Y 的分布式表示,并且通过两种语言相匹配句子组成的训练样本...同样的原理可以解释如何能执行多模态 学习 (multimodal learning),学习两种模态的表示,和一种模态中的观察结果 x 与 另一种模态中的观察结果 y 组成的对 (x,y) 之间的关系(通常是一个联合分布...通过学习所有的三组参数(从 x 到它的表示, 从 y 到它的表示,以及两个表示之间的关系),一个表示中的概念被锚定在另一个表 示中,反之亦然,从而可以有效地推广到新的对组。