作者 | Yoshua Bengio,Tristan Deleu等
译者 | 刘畅,编辑 | Just
出品 | AI科技大本营(ID:rgznai100)
自 2012 年以来,深度学习的发展有目共睹,今年 3 月,为此做出巨大贡献的Yoshua Bengio、Yann Lecun和Geofrey Hinton 一同获得了图灵奖。但现在,深度学习需要被进一步挖掘。
在最近一次采访中,图灵奖得主Bengio再次再次警示了可解释因果关系对深度学习发展的重要性。
在他看来,除非深度学习能够超越模式识别并了解因果关系的更多信息,否则它将无法实现其全部潜力,也不会带来真正的AI革命。换句话说,深度学习需要开始知道事情发生的因果关系,这将使现有的 AI 系统更加智能,更加高效。
不过,对于深度学习未来发展的具体思路,AI 大佬们也有不同意见,在前几日,纽约大学教授Gary Marcus 和 Bengio 就此来了一场隔空“互怼”。
不管怎样,Bengio 在研究深度学习可解释性方面已经出发了。今年年初,他其他研究者合作发表了《通过元迁移目标来学习理解因果关系》一文,提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构,还生成了因果关系的综合数据集。
论文链接:
https://arxiv.org/pdf/1901.10912.pdf
以下为这篇论文的主要内容要点,AI科技大本营(ID:rgznai100)编译:
本文提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构,这些变化因素如干预,智能体的行为和其他不稳定因素。本文表明,在这种假设下,正确的因果结构选择会使学习器更快适应修改后的分布,因为当对所学知识进行适当模块化时,分布变化仅会集中在一种或几种机制中。这导致为了适应这种变化,需要重新学习梯度和一些自由度较低的参数。并将适应修改后分布的速度作为元学习目标的激励项。
本文阐述了如何将其用于确定两个观察到的变量之间的因果关系。分布的变化不需要对应于某种标准的干预(固定变量),并且学习器不会了解这些干预相关的知识。本文证明了因果结构可以通过连续变量和端到端的学习进行参数化。然后,本文探讨了如何将这些想法用于学习一种编码器,该编码器能将初级观察变量映射到未观察到的因果变量,从而导致更快的分布适应。它学习的是一种表示空间,在这种表示空间中,可以满足独立性以及微小和稀疏变化的假设。
引言
当目前的机器学习方法需要泛化到训练分布之外的场景时,模型的能力似乎很薄弱,而这通常是非常需要的。在与训练数据相同的分布相似的测试集上获得良好的泛化性能是不够的,我们还希望在一种数据集中学到的知识能够很好的泛化到其他相关的分布中。这些分布可能涉及模型之前所见的内容,而它的一些变化则是由智能体引起的。
更笼统地说,我们希望以前学到的知识形成一个丰富的基础,从中可以非常迅速地适应新的但相关的分布,即获得良好的迁移。可能模型必须学习一些新内容,但是由于它已经掌握了大多数其他相关内容(以及它们的组成方式),因此在迁移目标分布上,可以非常快速的完成学习。
没有任何假设,就不可能成功迁移到一个无关的分布上。在本文中,我们关注于以下假设:当以适当的模块化方式表示知识时,改变是稀疏的,即只有一个或几个模块更改了。当分布变化是由于一种或多种因素的作用引起的,这尤其相关,例如因果关系文献中讨论的干预措施,其中单个因果变量被限制在特定值。
总的来说,模型很难一次影响许多潜在的因果变量,尽管本文并不是关于模型学习,但这是我们建议在此处利用的一个特性,用于帮助发现这些变量它们之间的因果关系。
为了激发推断因果结构的需求,需要考虑可以实际执行或可以想象的干预。可以想象一下,由于一项干预措施,可能会改变相关变量的联合分布,即以前从未观察到过。这超出了迁移学习的范围,因此需要因果学习和因果推理。
为此,仅学习观测变量的联合分布是不够的。人们还应该对潜在的高级变量及其因果关系有足够的了解,以能够正确推断干预的效果。例如,A =下雨,它会导致B =打开雨伞(反之亦然)。改变下雨的边缘概率(例如,因为天气变化)不会改变A和B的之间的关系(即P(B | A)),但会对边缘概率P(B)却产生了影响。相反,智能体对B(打开雨伞)的干预不会对A(下雨)的边缘分布产生影响。通常仅从(A,B)训练对中看不到这种不对称性,直到发生分布变化(例如由于干预引起的)。
这是本文的动机,在本文中,人们可以从不一定是已知的干预措施分布中学习,而不仅仅是获取一个联合分布,还可以发现一些潜在的因果结构。机器学习方法通常会利用某种形式的关于数据分布的假设。在本文中,我们不仅要考虑数据分布的假设,还要考虑其变化方式(例如,从训练分布转到迁移分布时,可能是由于某些智能体的行为造成的)。
我们建议基于这样的假设:当表示有关分布的知识时,其中的变化很小。之所以出现这种情况,是因为一个或几个基本事实机制的假设(但很难直接验证),会因为某种干预形式而改变。
我们如何利用这个假设?如果我们拥有正确的知识表示,那么从一个训练好的模型开始,我们应该能快速适应迁移的分布。之所以出现这种情况,是因为我们假设数据的生成过程是独立获得的,而且从训练分布到转移分布,几乎不需要改变真正的机制和参数。因此,捕获相应知识分解的模型仅需要进行一些更新和一些样例,即可适应迁移分布。
因此,基于正确知识表示空间的微小变化的假设,我们可以定义一个衡量适应速度的元学习目标,以便优化知识的表示,分解和结构化方式。这是本文提出的核心思想。
请注意,当存在更多的非平稳性(即分布变化很多)时,可以获得更强的信号,就像在元学习中一样,通过更多的元示例获得更好的结果。通过这种方式,我们可以将通常被认为是机器学习中令人讨厌的东西(由于非平稳性,不受控制的干预等导致的分布变化)转化为训练信号,从而找到一种将知识分解为要素和知识的好方法。
在本文中,我们将通过对合成生成的数据进行特定的实验来探索上述想法,以便对其进行验证并证明存在利用它们的简单算法。但是,对我们来说很明显,将需要更多的工作来评估提出方法的多样性。设置以及具有不同的具体参数设置,训练目标,环境等。
我们从最简单的设置开始,并评估上述方法是否可用于了解因果关系的方向。然后,我们研究获得训练信号的关键问题,该训练信号关于如何将原始观测数据转换为表示空间,在该表示空间中,潜在变量可以通过具有稀疏分布变化的稀疏因果图来建模,并显示正确的编码器确实可以更好地实现我们期望的元学习目标的价值。
何为因?何为果?
作者在本节中考虑确定变量A是否导致变量B或反之的问题。学习器(模型)会从一对相关分布中观察训练样本(a,b),按照惯例,我们将其称为训练分布和迁移分布。请注意,仅基于来自单个(训练)分布的样本,通常AB模型(A导致B)和BA模型(反之亦然,请参见下面的公式(1))另请参见附录A中的理论论证和模拟结果。
为了突出提出的元学习目标的功能,我们考虑了很多可用于训练分布但不能用于迁移分布的样例。实际上,正如我们将在下面讨论的那样,如果我们可以访问更多短时迁移的样例,则推断出正确因果方向的训练信号会更强烈。
学习带两个离散变量的因果关系图
我们需要比较两个假设(AB与BA)的性能,即两个模型在训练分布上进行训练后在迁移分布上的适应速度。我们将在此参数上假设简单的随机梯度下降,但是当然可以使用其他过程。在不失一般性的前提下,令AB为正确的因果模型。为了使条件更强,可以考虑两个分布之间的变化等于原因A的真实P(A)值的随机变化(因为这会对效果B产生影响,并揭示因果关系方向)。我们不假定学习器(模型)知道进行了何种干预,这与更常见的因果发现和受控实验方法不同。我们仅假设发生了某些变化,然后尝试利用它来揭示结构性的因果信息。
适应迁移分布的实验
本文目前进行的实验是将正确因果模型的学习曲线与迁移模型上的因果模型的学习曲线进行了比较。对于来自不同但相关的迁移分布的数据,仅需几个梯度步骤,我们的元学习算法就可以获取至关重要的一些信息(信号)。为了展示这种适应的效果,仅使用迁移分布中的少量数据,本文对离散随机变量的模型进行了实验。如上图1。
一个简单的参数计数能有助于我们理解图1中的观察结果。首先,考虑在适应迁移分布的阶段,指定不同模块参数的预期梯度,并对应于学习的元示例。作者提出了三个见解
见解1对于在训练阶段已正确学习的模块参数,迁移分布相对于模块参数的预期梯度为零,并且具有正确的因果关系集合,对应于正确的因果图,如果(c)相应的正确条件分布没有从训练分布变为迁移分布。
见解2上述公式(2)中迁移数据的负对数似然率的梯度。其结构参数由下式给出
其中D2是迁移数据,而是假设A->B的后验概率。此外,这可以等效地写为
其中是迁移数据D2上两个假设对数似然之间的差异。
见解3随机梯度下降(适当降低学习率)趋向于
作者通过附录及实验证实了上述三个见解,具体可以参见论文。
总结展望
作者使用非常简单的双变量设置,确定了学习器可以用适应观察数据分布稀疏变化的速率来选择或优化因果结构并解耦因果变量。基于这样的假设:在具有正确因果结构的情况下,这些分布变化是局部且稀疏的。本文通过理论结果和实验验证了这些想法。
这项工作只是基于修改分布速率优化因果结构的第一步。在实验方面,除了本文研究的设定外,还应考虑许多其他条件设定,包括各种参数设置,更丰富和更大的因果图,各种优化程序等。此外,由于我们在这一点上仅使用了具有单一自由度的最简单的编码器进行了实验,在探索如何学习更优的学习表达时,还需要更多的工作。扩充这些想法,便能应用于提升学习器处理非平稳性的分布,从而提高学习器的鲁棒性。
领取专属 10元无门槛券
私享最新 技术干货