Bengio2310：以对象为中心的架构支持高效的因果表示学习

CreateAMind

发布于 2024-06-17 18:07:08

570

发布于 2024-06-17 18:07:08

Object-centric architectures enable efficient causal representation learning以对象为中心的架构支持高效的因果表示学习

https://arxiv.org/abs/2310.19054

贡献：• 我们强调了由于违反用于识别潜在变量的标准假设而产生的两个问题（第3节）。• 我们展示了这些问题可以通过利用以对象为中心的架构来解决，并且使用以对象为中心的架构还使我们能够使用少k倍的扰动来解开属性，其中k是对象的数量（第4节）。• 我们实现了第一个以对象为中心的去耦方法，该方法可以解开具有可识别性保证的对象属性（第5节）。• 我们在二维和三维合成基准测试中取得了强大的实证结果（第7节）。

摘要‍‍

因果表示学习在多种设置中展示了我们可以分离具有可识别性保证的潜在变量（至少在某些合理的等价类中）。所有这些方法的共同点是假设(1)潜在变量被表示为d维向量，以及(2)观测值是这些潜在变量的某些注入生成函数的输出。虽然这些假设看起来无害，但我们表明，当观测值涉及多个对象时，生成函数不再是注入的，并且在实践中分离失败了。我们可以通过结合最近在对象中心学习和因果表示学习中的发展来解决这种失败。通过修改Slot Attention架构（Locatello等人，2020b），我们开发了一种对象中心架构，利用来自稀疏扰动的弱监督来分离每个对象的属性。这种方法在数据效率方面更胜一筹，因为它所需的扰动比编码到欧几里得空间的类似方法要少得多，并且我们展示了这种方法在一系列基于简单图像的分离实验中成功地分离了一组对象的属性。

1 引言考虑图1（左）中的图像。我们可以清楚地看到四个不同颜色的球，每个球的位置都不同。但是，问“哪个是第一个形状？哪个是第二个？”并没有一个明确的答案：图像只是描绘了一组无序的对象。这个观察结果似乎微不足道，但它意味着存在一些对象的排列方式，可以使图像保持不变。例如，我们可以交换两个蓝色球的位置，而不改变图像中的任何一个像素。

与这项工作并行的是，以对象为中心的学习文献（例如van Steenkiste等人，2018a；Goyal等人，2019；Locatello等人，2020b；Goyal等人，2020；Lin等人，2020；Zhang等人，2023）取得了重大进展，开发了一套架构，使我们能够将观察结果分解为一组对象表示。最近的两篇论文（Brady等人，2023；Lachapelle等人，2023）表明，这些架构中使用的加法解码器产生了可证明的对象级去耦，但它们没有解决去耦对象相关属性的任务。在本文中，我们展示了通过利用以对象为中心的架构，我们有效地将多对象问题简化为一组单对象去耦问题，这不仅解决了单射性失败的问题，而且还显著减少了我们需要观察的扰动数量，以便使用Ahuja等人（2022b）的方法去耦属性。我们通过开发一种属性去耦算法来说明这些结果，该算法结合了Zhang等人（2023）的SA-MESH以对象为中心的架构和Ahuja等人（2022b）的去耦方法，并表明我们的方法在二维和三维合成基准测试中去耦对象的属性非常有效。

总之，我们做出了以下贡献：• 我们强调了由于违反用于识别潜在变量的标准假设而产生的两个问题（第3节）。• 我们展示了这些问题可以通过利用以对象为中心的架构来解决，并且使用以对象为中心的架构还使我们能够使用少k倍的扰动来解开属性，其中k是对象的数量（第4节）。• 我们实现了第一个以对象为中心的去耦方法，该方法可以解开具有可识别性保证的对象属性（第5节）。• 我们在二维和三维合成基准测试中取得了强大的实证结果（第7节）。

2 背景

因果表示学习（Schölkopf等人，2021）旨在从非结构化观察（如图像）中可靠地提取有意义的潜在变量。如果没有额外的结构，这个问题是不可能解决的，因为有无限多的潜在分布p(z)与观察到的分布p(x) = R p(x|z)dp(z)一致，其中只有一个对应于真实分布（Hyvärinen & Pajunen，1999；Locatello等人，2019）。因此，我们需要通过对潜在分布p(z)的形式进行分布假设，或者通过对从潜在空间到观察空间的生成函数g：Z→X的功能形式进行假设，来限制解空间（Xi & Bloem-Reddy，2023）。据我们所知，所有提供可识别性保证的论文都利用了一个关键假设，即g(·)是单射的，这意味着如果我们看到相同的图像，那么潜在变量也是相同的（即如果g(z1) = g(z2)，那么z1 = z2）。

考虑到这些限制，我们可以通过考虑满足这些假设的最优解集来分析给定推理算法的潜在变量的可识别性。如果该过程在无限数据限制下能准确地恢复潜在变量，我们就说潜在变量被识别了。通常情况下，会保留一些不可约的不确定性，所以潜在变量会在某个等价类A中被识别。例如，如果真实的潜在向量是z，我们有一个算法，它的所有最优解都返回z的线性变换，使得

，那么我们说这个算法线性地识别潜在变量。如果学习算法在排列（对应于原始变量的重新标记）和元素变换的基础上恢复了真实的潜在变量，我们将称之为潜在变量被解开。也就是说，对于所有的i，

，其中π是一个排列，hi(·)是一个元素函数；对于我们在这篇论文中考虑的结果，这个函数只是一个缩放和偏移，

，对应于测量单位和截距的变化。

3对象导致不可识别性

我们首先从形式上描述当图像包含多个对象时出现的挑战。

数据生成过程。我们假设一组

的k个对象是从某个联合分布PZ中抽取的。为了比较集合和向量表示，我们用vecπ(Z)表示根据某个排列π∈Sym(k)（k个对象的对称排列群）排序的Z的扁平化向量表示；当省略π时，vec(Z)简单地表示一个任意的默认排序（即群的恒等元素）。每个对象由一个d维属性向量zi ∈ Rd描述，因此vec(Z) ∈ Rkd。我们说对象具有共享属性，如果zi的坐标在对象之间具有一致的含义。例如，图1（左）中的对象，每个都有x，y坐标和一个颜色，可以用其色调表示，所以

。一般来说，与对象关联的属性集在不同对象之间可能是不同的，但为了简单起见，我们的讨论将集中在所有对象之间完全共享的属性上。

非单射性问题。我们观察到的图像x是通过生成函数g(·)生成的，该函数将一组对象属性渲染成像素空间中的一个场景，即x = g(Z)。虽然g(·)是一个集合函数，但我们可以定义一个等价的向量生成函数g，根据定义，它产生的输出与g(Z)相同；即对于所有的π∈Sym(k)，g(vecπ(Z)) = g(Z)。这个生成函数g接受向量作为输入，除了它不是单射的之外，它与标准的去耦假设是一致的：

这个命题简单地表明，如果图像由一组对象组成，那么如果我们把生成函数建模为一个从欧几里得空间到另一个空间的映射，那么这个映射在构造上就不是单射的。除了Lachapelle等人（2023）之外，第6节中引用的所有因果表示学习论文都假设生成函数g是单射的。要了解为什么一般情况下需要单射性，请考虑一个包含两个对象的图像。如果这两个对象是相同的，那么就有两个去耦的解，对应于两种排列，因此不可能确定一个唯一的解。对象身份问题。当在Z上应用稀疏扰动时（参见第2节），我们实际上是在扰动一个对象的一个坐标。然而，我们如何知道我们已经扰动了Z中多个可能对象中的哪一个呢？在单射映射的情况下，这很简单：由于它们有一个一致的排序，我们知道vec(Z)中的一个坐标在扰动前后对应于同一个对象。然而，在我们的设置中，情况不再如此。由于对象实际上是集合的一部分，我们不能依赖它们的排序：原则上，被扰动的对象可以自由地与其他对象交换顺序；不能保证扰动前后的排序保持不变。事实上，由于责任问题，我们知道这些排序变化必须存在：

另一个挑战是编码器f（方程1）必须以不连续的方式将观察映射到vec(Z)，这在传统上用标准机器学习技术很难建模。总之，Z中对象的未排序性质导致了非单射性，丢失了对象身份，以及学习不连续函数的需要。这些都在理论上和实践上导致了传统去耦方法的非可识别性。4 以对象为中心的因果表示学习这个问题的自然解决方案是认识到多对象图像的潜在表示是集合，应该由我们的编码器和解码器以这种方式处理，以强制这些排列之间的不变性。Brady等人（2023）和Lachapelle等人（2023）都表明，在其解码器中强制执行适当的对象分解的架构可以证明将图像去耦为对象级别的潜在变量块。这些结果并没有解开对象的属性，但它们解决了一个重要的前驱问题：假设存在生成函数的对象级别分解足以将潜在变量划分为对象。与这两篇论文一样，我们将假设自然图像可以分解为对象，每个对象占据一组不相交的像素。在这种情况下，我们说一个图像是对象可分离的。

Brady等人（2023）和Lachapelle等人（2023）给出了与我们对象级定义一致的两个不同的正式划分P的特征。Brady等人的特征要求一个可微分的生成函数g是组合的，这意味着每个x(i) ∈ P只功能性地依赖于单个zj ∈ Z，并且在某种意义上是不可约的，即没有x(i) ∈ P可以进一步分解为具有功能独立潜在变量的非平凡子集。Lachapelle等人的假设比我们的弱，因为他们只需要生成函数定义为g(Z) = σ(∑zi∈Z gi(zi))，其中σ是一个可逆函数，并且g是一个“足够非线性”的微分同胚（参见Lachapelle等人，2023年的假设2）；对象可分离图像是σ作为恒等函数且每个gi(·)渲染x的一个不相交子集的特殊情况，因此他们的结果适用于我们的设置。用以对象为中心的编码解开属性。在第3节中，我们展示了基于稀疏扰动的去耦方法的基本假设在多对象场景中被违反。但是，Brady等人（2023）和Lachapelle等人（2023）的结果表明，对象可以被分离成不相交（但纠缠）的潜在变量集。这表明了一种在多对象场景中去耦属性的自然方法：

• 我们可以将多对象去耦问题简化为具有图像的对象级划分的单对象问题。在每个像素块x(i) ∈ P中，单射性成立，因此在块级别上我们不再有多个解。这个划分是可识别的，我们可以使用以对象为中心的架构来学习对象级划分。我们需要这种以对象为中心的架构能够处理责任问题。• 我们利用Ahuja等人（2022b）的方法，使用弱监督来分别解开每个对象的属性。由于我们假设对象之间的属性是共享的，这需要在扰动集∆中减少k倍的扰动，其中k是对象的数量。• 我们通过一个显式的匹配过程来解决对象身份问题，该过程在扰动后重新识别被扰动的对象。有关我们如何实现这一点的详细信息，请参见第5节。这种方法不仅解决了第3节中概述的挑战，还大大减少了我们必须应用的扰动数量，以便解开共享属性。

证明在附录A中给出。主要的见解是，如果我们有一个以对象为中心的架构，它学习一个对象级的划分P，并对每个补丁使用相同的编码函数f，那么每个扰动都为每个对象提供了弱监督，尽管只有一个对象被扰动。因此，我们不需要分别解开每个对象的属性，从而将所需干预的数量减少了k倍。

5方法

对象级划分 有许多方法可以将图像分解为对象，但就我们的目的而言，基于像素分割的方法（Greff等人，2019；Locatello等人，2020b；Zhang等人，2023）让我们可以直接调整现有的去耦技术，使其与以对象为中心的编码器一起工作。像素分割编码器f^将图像x映射到一组槽向量{s1, ..., sk}，每个向量依赖于像素x(i) ∈ P的一个子集。然后使用槽解码器

将槽表示集映射回像素空间来重建图像。槽和像素块之间的依赖通常由一个软注意力矩阵控制，这通常不会导致像素的划分。在我们的实现中，我们使用了Zhang等人对原始Locatello等人槽注意力架构的SA-MESH修改，它增加了一个熵正则化项，通过鼓励像素x(i)的子集不相交来学习近似划分输入的稀疏注意力矩阵（有关架构的详细信息，请参见附录B）。对我们来说重要的是，Zhang等人（2023）是专门的多集等变（Zhang等人，2022），这允许它建模不连续函数，从而处理责任问题。

槽注意力通常通过相对高维的每对象槽表示si ∈ RD的重建损失进行训练，但对于我们处理的图像，我们希望相对低维的潜在描述（在最简单的情况下，只是代表每个对象的（x，y）坐标的两个维度）。为了解开这些高维槽表示，我们只需添加一个投影头，

，它通过潜在空间损失进行训练。

这个损失函数的第一项强制编码器/解码器对

在槽位表示si中捕获足够的信息以重建x。第二项包含匹配项，并确保从槽位表示投影到潜在变量的函数

将槽位表示分离成各个独立的属性。偏移量δ对模型来说可能是已知的或未知的，对于本文的其余部分，我们专注于更具挑战性和自然的情况，即偏移量未知。更多细节请见附录C。

6相关工作

因果表示学习 我们的工作建立在因果表示学习的新兴领域之上（Schölkopf等人，2021）。特别是，我们的去耦方法建立在Ahuja等人（2022b）的思想之上，后者使用了与Locatello等人（2020a）相同的假设，但放宽了潜在变量独立分布的要求。这些方法构成了最近大量工作的部分，这些工作显示了稀疏性和来自动作的弱监督在去耦中的重要性（Lachapelle等人，2022；Lachapelle & Lacoste-Julien，2022；Brehmer等人，2022；Lippe等人，2022；2023b；a）。在附录中，我们还展示了如何在我们的框架中处理Ahuja等人（2022a）已知的机制。一个密切相关但更一般的设置是最近在不需要配对样本的干预分布上去耦的进展（Ahuja等人，2023；Buchholz等人，2023；von Kügelgen等人，2023）；我们认为我们的方法的一个有用的扩展将考虑这些设置。这篇文献建立在非线性独立成分分析（ICA）文献的基础工作之上（Hyvarinen & Morioka，2016；2017；Hyvarinen等人，2019；Khemakhem等人，2020a）。以对象为中心的学习。自然数据通常可以分解为较小的实体——对象——来解释数据。以对象为中心的学习的总体目标是以这些多个对象为模型来模拟这样的数据。这样做的原因很简单：通常更容易在一小组相关对象上进行推理，而不是例如一个大的特征向量网格。以这种方式表示数据具有下游优势，如更好的鲁棒性（Huang等人，2020）。这个领域的一个重要研究方向是如何首先从图像和视频等数据中获得这样的对象。通常，使用重建设置：给定一个图像输入，模型学习潜在空间中的对象，然后使用标准重建损失将其解码回原始图像（Locatello等人，2020b；van Steenkiste等人，2018b）。Nguyen等人（2023）提出了RSM，一个与我们的工作概念上接近的想法。他们通过最小化展开的重建损失，联合学习以对象为中心的表示和一个模块化动力学模型。然而，他们没有获得任何对象属性的去耦，而我们提出的弱监督的形式为他们的方法提高泛化的有效性提供了见解。我们使用槽注意力，因为它对所需数据的假设很少。例如，一些方法将前景和背景进行不同的建模。此外，DINOSAUR（Seitzer等人，2022）在更复杂的图像上展示了最近的成功，这证明了槽注意力方法的多功能性。虽然一般来说，以对象为中心的模型在图像输入上运行，从而识别视觉对象，但它原则上也适用于其他领域，如音频（Reddy等人，2023）。

7 实证评估

设置。我们在2D和3D合成图像数据集上评估了我们的方法，这些数据集使我们能够仔细控制环境的各个方面，如对象数量、大小、形状、颜色、相对位置和动态。我们的2D和3D数据集的例子分别如图1、3所示。在这两个数据集中，对象级的真实潜在值由z = (px, py, h, s, r, ϕ)组成，其中px, py表示对象中心的坐标，然后是颜色色调h、形状s、大小r和绕z轴的旋转角度ϕ。因此，我们处理离散和连续属性。有关数据集生成的更多细节，请参见附录F.6。

去耦指标。我们将非背景槽的投影z^与对象的真实潜在值z进行比较，以衡量z^中属性的去耦程度。我们评估了学习表示的可识别性，直到仿射变换或排列和缩放。这两个指标是通过在z、z^之间拟合线性回归并报告决定系数R2和使用平均相关系数（MCC）（Hyvarinen & Morioka，2016；2017）来计算的。

基线。我们的基线选择使用一系列线性探针来评估在仅针对重建训练的原始SA-MESH实现的槽表示si中已经存在多少属性信息。我们将此与我们的方法进行比较，我们的方法明确优化了使用方程2中的弱监督损失来解开属性。对于基线，我们使用随机投影（RP）将槽表示映射到一个d维潜在空间——这保留了投影空间中的距离，以获得原始槽注意力去耦的粗略估计——前d个主成分（PC）和线性回归（LR），后者为线性映射可实现的目标提供了一个有监督的上限。最后，我们还包括了一个标准的ResNet18（He等人，2016）（表示为CNN），它使用Ahuja等人（2022b）的程序进行训练，没有解决注入性问题，以及在修改为注入性的DGP上训练的相同网络（表示为CNN†）。2D形状。表1中的结果（附录E.1中有额外的结果）证实，只要生成函数是注入性的，我们就可以在经验上实现识别（见CNN†）。但是，一旦我们放弃对象的任何排序并通过非注入性函数渲染x，那么通过仅适用于注入性生成函数的ResNet18进行的识别就会灾难性地失败（参见表4中与CNN对应的行）。另一方面，我们可以看到我们的方法可以轻松识别对象属性，因为它通过利用槽注意力和匹配过程将它们视为一个集合。此外，我们方法中学到的潜在值的共享结构显著提高了去耦的样本效率（见附录E.3）。原始SA-MESH在位置去耦任务上的主成分表现强劲，可能是由于位置编码。在涉及颜色、大小和旋转的更复杂任务上，SA-PC的MCC性能下降，尽管考虑到模型只是为重建而训练，它仍然出奇地高。这可能是因为这些是非常简单的图像，其属性是独立、均匀随机选择的，因此槽主成分与数据中的地面真实变化轴对齐。

3D形状。图3显示了模型观察并用于在表2和表3中分离对象属性的扰动示例。我们展示了场景中k = {2, 3, 4}个对象的不同属性和环境的组合的去耦分数。由于非注入性CNN在更简单的2D数据集中一直失败，我们没有用3D形状对其进行评估。我们的方法的结果是3个种子的平均值，但由于基线需要从头开始训练SA-MESH，它们只训练了一次，因为使用槽注意力获得优秀的重建计算成本很高。这些结果基本上证实了我们在更简单的2D数据集中的发现，并展示了如何使用我们的方法将场景视为一个集合，从而完美地分离对象属性。关于其他属性组合的结果，请参见附录E.2。

8 结论

这项研究建立了因果表示学习和以对象为中心的学习之间的联系，并且（据我们所知）首次展示了如何在具有多个可互换对象的环境中实现去耦表示。认识到这种协同作用的重要性有两个方面。首先，因果表示学习在假设注入性和固定Rd表示时，很大程度上忽略了对象的微妙之处。相反，以对象为中心的学习还没有处理无监督去耦的挑战。然而，去耦表示可以显著提高模型在分布变化下的泛化能力，并且在实现这种适当表示时，还可以允许学习动力学的简约模型，我们认为这是未来研究的重要途径。在这项研究中，我们提供了实证证据，展示了通过将槽注意力与因果表示学习的最新进展相结合，成功地实现了以对象为中心的表示的去耦。

9 局限性

我们的研究关注于展示当将以对象为中心的环境视为一组表示而不是固定大小的向量时，何时可以实现去耦。我们已经在两个合成数据集上全面分析了我们的模型的性能，这两个数据集在捕捉现实世界场景的复杂性方面相对有限。然而，我们相信并展示了这样的分析是确定使我们的算法工作所涉及的复杂性的必要的第一步。我们的分析在多个方向上受到限制。首先，虽然我们确实考虑了一系列连续和离散属性进行去耦，但我们使用的对象数量相当低，理想情况下应该扩展到包含更多对象的现实世界场景。其次，尽管我们的实验包括了与遮挡、深度和照明相关的伪影，但在我们所有的实验中，我们通过将对象置于同质背景上来简化问题，而现实世界的场景将包括更复杂的背景。这样的决定主要是由于（1）为每种属性组合生成超过5k的数据集本身就是一项计算密集型任务，（2）为每种属性组合和对象数量从头开始训练SA-MESH会迅速增加，因为每次训练在单个A100 GPU上大约需要12小时才能达到良好的重建效果，（3）与背景和对象数量相关的细节与本研究的重点关系不大，本研究的重点是展示如何在以对象为中心的环境中分离因果因素。

千万级别的kaggle比赛，刚启动

Bengio：实现AGI的主要原则已经被发现？剩下的主要障碍是扩大规模？还是。。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-16，如有侵权请联系 cloudcommunity@tencent.com 删除

架构