Bengio：实现AGI的主要原则已经被发现？剩下的主要障碍是扩大规模？还是。。

CreateAMind

发布于 2024-06-17 18:18:53

600

发布于 2024-06-17 18:18:53

文章被收录于专栏：CreateAMindCreateAMind

Inductive biases for deep learning of higher-level cognition 高级认知深度学习的归纳偏差

https://arxiv.org/pdf/2011.15091v42022

摘要（3万字）

一个有趣的假设是，人类和动物的智力可以通过几个原则（而不是一本百科全书式的启发式列表）来解释。如果这个假设是正确的，我们就可以更容易地理解我们自己的智力并构建智能机器。就像在物理学中一样，这些原则本身可能不足以预测像大脑这样的复杂系统的行为，可能需要大量的计算来模拟类似人类的智能。这个假设表明，研究人类和动物利用的那种归纳偏差可以帮助阐明这些原则，并为人工智能研究和神经科学理论提供灵感。深度学习已经利用了几个关键的归纳偏差，这项工作考虑了一个更大的列表，重点关注那些主要涉及更高层次和顺序意识处理的原则。澄清这些特定原则的目标是，它们可能有助于我们构建受益于人类能力的AI系统，在灵活的分布外和系统性泛化方面，这是目前最先进的机器学习和人类智能之间存在巨大差距的领域。

1. 深度学习是否已经收敛？

在测试集上达到100%的准确率就足够了吗？许多机器学习系统在各种任务上都取得了出色的准确率（Deng等人，2009；Mnih等人，2013；Schrittwieser等人，2019），然而，关于它们的推理或判断是否正确的问题已经受到质疑，答案似乎因任务、架构、训练数据以及测试条件与训练分布的匹配程度而异。实现人类水平性能所需的主要原则是否已经被发现，剩下的主要障碍是扩大规模？还是我们需要遵循一个完全不同的研究方向，而不是建立在深度学习发现的原则之上，以实现人类所表现出的那种认知能力？

我们的目标是为了更好地理解当前深度学习与人类认知能力之间的差距，从而帮助回答这些问题，并为深度学习提出研究方向，以期弥合人类水平AI的差距。我们的主要假设是，深度学习之所以成功，部分原因是由于一组归纳偏差（偏好、先验或假设），但为了从高度监督学习任务（或强而密集的奖励可用）的良好分布内泛化，如图像中的物体识别，到强大的分布外泛化和新任务的迁移学习（需要很少的例子就能很好地泛化），应该包括额外的归纳偏差。为了具体说明，我们考虑了一些人类在意识思考中可能利用的归纳偏差，这些思考使用高度序列化的认知，在意识处理层面上进行操作，并回顾了一些早期探索深度学习中的“高级认知归纳先验”的工作。我们使用“高级”这个词来谈论在意识处理层面上操作的变量，因此通常可以用语言表达。然而，人类可以有意识地关注低级或中级特征，例如，通过描述一个颜色奇怪的像素，而不仅仅是像物体或社会情境这样非常抽象的概念。我们认为，从MLP到卷积网络再到变换器的深度学习进展在许多方面都是朝着深度学习的原始目标（即，启用表示层次的发现，最抽象的层次通常与语言相关）的不完全进展。然而，请注意，虽然语言可能让我们看到了系统2，但这些能力可能在语言出现之前就已经存在，因为有证据表明，一些非人类动物（如乌鸦）具有令人惊讶的强大形式的即时推理能力（Taylor等人，2009）。我们的论点表明，虽然深度学习带来了显著的进步，但它需要在定性和定量方面进行扩展：更大更多样化的数据集和更多的计算资源（Brown等人，2020）很重要，但没有额外的归纳偏差（Vaswani等人，2017；He等人，2016；Gilmer等人，2017；Shazeer等人，2017；Fedus等人，2021；Hinton，2021；Welling，2019；Dosovitskiy等人，2020；Battaglia等人，2018）是不够的。我们认为，进化力量、多个代理之间的相互作用、非平稳和竞争系统给学习机制带来了压力，使其具备人类在新环境中所具有的那种灵活性、鲁棒性和快速适应能力（Bansal等人，2017；Liu等人，2019；Baker等人，2019；Leibo等人，2019），但需要借助深度学习进行改进。因此，所寻求的归纳偏差应该特别有助于AI在这些方面取得进展。除了考虑这些归纳偏差的学习和样本复杂性优势外，本文还将它们与神经网络中的知识表示联系起来，其思想是通过将知识分解为其稳定部分（如因果机制）和易变部分（随机变量），并将知识分解为小而相对独立的部分，这些部分可以根据需要动态地重新组合（在明确和可表述的层面上进行推理、想象或解释），从而实现人类所享有的那种系统性泛化，这在自然语言中很常见（Marcus，1998，2019；Lake和Baroni，2017；Bahdanau等人，2018；McClelland等人，1987）。

1.1 数据、统计模型和因果关系

我们目前最先进的机器学习系统有时会在特定的狭窄任务上取得良好的性能，使用大量的标记数据，要么通过监督学习，要么通过强化学习（RL）获得强烈而频繁的奖励。相反，人类能够以更统一的方式理解他们的环境（而不是为每个任务设置一组单独的参数），这使他们能够迅速泛化（从少数例子中）到一个新任务，这要归功于他们重用先前获得的知识的能力。相反，当前的系统通常对分布的变化（Peters等人，2017b；Geirhos等人，2020；Hendrycks等人，2021；Koh等人，2021；Schneider等人，2020）、对抗性示例（Goodfellow等人，2014；Kurakin等人，2016）、虚假相关性（Krueger等人，2021；Beery等人，2018；Arjovsky等人，2019）等不够稳健。

在机器学习文献中研究的一种可能性是，我们应该用多个数据集来训练我们的模型，每个数据集都提供了人类共享的世界底层模型的不同视角（Baxter，2000）。虽然多任务学习通常只是汇集不同的数据集（Caruana，1997；Collobert和Weston，2008；Ruder，2017），但我们认为还有更多的东西需要考虑：我们希望我们的学习者在一项完全新的任务或分布上表现良好，要么立即（零样本分布外泛化），要么只需几个例子（即通过高效的迁移学习）（Ravi和Larochelle，2016；Wang等人，2016；Finn等人，2017；Cabi等人，2019；Jang等人，2022；Reed等人，2022；Ahn等人，2022；Brown等人，2020；Alayrac等人，2022；Borgeaud等人，2022；Chowdhery等人，2022；Sanh等人，2021；Lu等人，2022；Raffel等人，2020）。

这就提出了分布或任务变化的问题。虽然传统的训练-测试场景和学习理论假设测试示例来自与训练数据相同的分布，但仅仅放弃这一假设意味着我们无法对修改后的分布的泛化说任何话。因此，关于学习代理遇到的不同任务或不同分布之间的关系，需要新的假设。

我们用结构-机制（Schölkopf，2015）这个词来描述遵循现实底层机制理解的模型。它们与用于捕获因果结构（Pearl，2009）的结构因果模型密切相关。这种模型的关键属性是，它们将对从同一底层因果系统中提取的各种数据分布做出正确的预测，而不是特定于某一特定分布。举一个具体的例子，方程

以一种我们期望无论世界上的其他属性如何都成立的方式将质量和能量联系起来。另一方面，像“GDPt = 1.05 GDPt−1+ noise”这样的方程在特定的数据分布下可能是正确的（例如，一个有某种增长模式的国家），但当世界的某些方面发生变化时，即使是以没有发生或不可能发生的方式，即反事实的方式，它也将无法成立。

然而，人类并没有像牛顿方程那样以一种整洁的可表述方式表示他们所有的知识。大多数人在解决实际问题时首先在直觉层面上理解物理，我们通常将这种隐含知识与明确的可表述知识结合起来（McCloskey，1983；Baillargeon等人，1985；Spelke等人，1992；Battaglia等人，2013）。我们可以命名像位置和速度这样的高级变量，但在日常生活中（与运行牛顿方程模拟的物理学家相反），我们可能会发现很难解释将这些变量相互关联的直观已知机制。

隐式和显式知识 对我们来说，一个重要的问题是知识如何以这两种形式表示，隐式——直觉性的且难以用语言表达——和显式——允许人类通过自然语言分享部分思考过程。

因果理解的关键在于捕捉干预措施作为分布变化的效果。人类经常用因果结构来解释他们的感知（在显性层面）并进行推理，而因果结构实际上是关于因果随机变量之间的联合分布如何在干预措施，即行动下发生变化。这表明深度学习需要整合的一个可能方向包括更多关于能动性、推理和因果关系的概念，即使应用程序只涉及单个输入，如图像，而不是实际学习策略。为此，我们需要研究如何超越近几十年来主导深度学习和机器学习的统计学习框架。与其把数据看作是从同一分布中独立抽取的一组示例，我们可能应该通过现实世界中的非平稳过程来反思数据的起源。我们认为，这种观点将有助于学习代理，如婴儿或机器人，在不断变化的环境中取得成功。

本文主要讨论了受高级认知启发的归纳偏差，并旨在应对这些泛化挑战，指出了实现其中一些现有工作的方法。然而，在很大程度上，如何在单一系统中有效地实现和组合这些归纳偏差仍然是一个悬而未决的问题。

2 关于归纳偏差

机器学习的无免费午餐定理（Wolpert等人，1995；Baxter，2000）基本上表明，要在所有函数空间中获得泛化，就需要一组偏好（或归纳偏差），没有完全通用的学习算法，任何学习算法在某些分布上的泛化效果会更好，而在其他分布上则会更差。通常情况下，给定一个特定的数据集和损失函数，有许多可能的解决方案（例如参数分配）可以解决学习问题，并在训练点上表现出同样“好”的性能。给定一个有限训练集，唯一泛化到新输入配置的方法就是依赖一些关于我们寻找的解决方案的假设或偏好。对于旨在达到人类水平性能的人工智能研究来说，一个重要的问题是要确定与我们对人类周围世界的看法最相关的归纳偏差。广义上讲，归纳偏差鼓励学习算法优先选择具有某些属性的解决方案。表1列出了各种神经网络中已经使用的一些归纳偏差，以及相应的属性。尽管它们通常以神经架构的形式表达，但它们也可以与网络的训练方式有关，例如，无监督预训练、自监督学习和半监督训练，这些都涉及到输入分布P(X)对未来任务P(Y |X)的信息。其他相关元素，如学习代理主动寻求知识的能力（例如在主动学习或强化学习中）或从其他代理获取信息的能力（例如，社会学习，多智能体学习），并不是直接关于归纳偏差的（本文不再进一步讨论）。

从归纳偏差到算法。有许多方法可以编码这些偏差，例如明确的正则化目标（Bishop等人，1995；Bishop，1995；Srivastava等人，2014；Kukačka等人，2017；Zhang等人，2017）、架构约束（Yu和Koltun，2015；Long等人，2015；Dumoulin和Visin，2016；He等人，2016；Huang等人，2017）、参数共享（Hochreiter和Schmidhuber，1997；Pham等人，2018）、优化方法选择的隐含效应（Jastrzkebski等人，2017；Smith和Le，2017；Chaudhari和Soatto，2018）、自监督学习或自监督预训练（Hinton等人，2006；Erhan等人，2010；Devlin等人，2018b；Chen等人，2020a，b；Grill等人，2020）、对已知变换的不变性或等变性（Bruna等人，2013；Defferrard等人，2016；Ravanbakhsh等人，2017；Thomas等人，2018；Finzi等人，2020；Satorras等人，2021）或在贝叶斯模型中选择先验分布（Jeffreys，1946；Berger和Bernardo，1992；Gelman，1996；Fortuin，2022）。例如，可以通过用卷积替换矩阵乘法（LeCun等人，1995）和池化（Krizhevsky等人，2012），或者通过对输入变换的网络预测进行平均（特征平均）（Zhang等人，2017），或者在用这些变换增强的数据集上进行训练（数据增强）（Krizhevsky等人，2012），来构建神经网络输出的平移不变性。虽然一些归纳偏差可以很容易地编码到学习算法中（例如使用卷积），但对函数的偏好有时是隐含的，不是学习系统设计者的意图，有时如何将归纳偏差转化为机器学习方法并不明显，这种转换通常是机器学习论文的核心贡献。

归纳偏差作为数据。我们可以将归纳偏差或先验和内置结构视为“伪装的训练数据”，并且可以通过更多的数据来弥补缺乏足够强大的先验（Welling，2019）。有趣的是，不同的归纳偏差可能相当于或多或少的数据（甚至可能是指数级更多的数据）：我们怀疑基于某种组合形式的归纳偏差（如分布式表示（Pascanu等人，2013）、深度（Montufar等人，2014）和注意力（Bahdanau等人，2014；Vaswani等人，2017））也可能提供更大的优势（在它们很好地应用于要学习的函数的程度上）。一般来说，先验可能是不完美的，这在大型数据集中表现得最为明显。即使对于良好的先验，归纳偏差的优点在非常大的数据集上可能较小，这表明转移设置（只有少数例子可用于新的分布）对于评估归纳偏差的优点及其实现是有趣的。

能动性、序贯决策和非平稳数据流。机器学习的经典框架是基于相同且独立分布的数据（i.i.d.）的假设，即测试数据与训练数据具有相同的分布。这是一个非常重要的假设，因为如果我们没有这个假设，那么我们就无法对来自同一分布的新样本的泛化说些什么。不幸的是，这个假设太强了，现实并非如此，特别是对于在一个环境中一次做出一个决策并从环境中获得观察结果的代理人来说。一个代理看到的观察结果的分布可能会因为许多原因而改变：代理在环境中采取行动（干预），其他代理在环境中进行干预，或者仅仅是因为我们的代理正在学习和探索，访问状态空间的不同部分，沿途发现它的新部分，从而经历沿途的非平稳性。虽然序贯决策在现实生活中无处不在，但在某些情况下，考虑这些非平稳性可能看起来是不必要的（比如静态图像中的物体识别）。然而，如果我们想建立对分布变化具有鲁棒性的学习系统，可能有必要在分布变化的设置中进行训练！当然，还有机器学习应用中的数据是序贯和非平稳的（比如任何事物的历史记录），甚至更甚，学习者也是一个代理或与其它代理互动的代理（比如在机器人技术、自动驾驶或对话系统中）。这意味着我们可能需要远离监督学习框架中典型的大型策划数据集，而是构建非平稳可控环境作为我们学习者的训练场地和基准。这使得评估和比较学习算法的任务变得复杂，但这是必要的，我们相信这是可行的，例如参见（Yu等人，2017；Packer等人，2018；Chevalier-Boisvert等人，2018；Dulac-Arnold等人，2020；Ahmed等人，2020）。

迁移学习和持续学习。因此，我们感兴趣的是迁移学习（Pratt等人，1991；Pratt，1993）和持续学习（Ring，1998）场景，而不是固定的数据分布和寻找与该分布协同工作的归纳偏差，这里有一个潜在无限的任务流，学习者必须从过去的经验和任务中提取信息，以提高其在未来和尚未见过的任务上的学习速度（即样本复杂性，这与目前标准的渐近性能不同）。假设学习者面临一系列任务，A、B、C，然后我们希望学习者在新任务D上表现良好。如果没有任何假设，几乎不可能期望学习者在D上表现良好。然而，如果在转移任务（即任务D）和源任务（即任务A、B和C）之间存在一些共享结构，那么就有可能从源任务概括或转移知识到目标任务。因此，如果我们想有意义地谈论知识转移，重要的是要谈论学习者将要面对的数据分布类型的假设，即（a）它们可能有什么共同点，在经历的环境中什么是稳定和固定的，（b）它们如何不同或在我们考虑序贯决策场景时，从一个到下一个的变化是如何发生的。这种划分应该让人想起元学习的工作（Bengio等人，1990；Schmidhuber，1987；Finn等人，2017；Ravi和Larochelle，2016），我们可以将其理解为将学习分为慢速学习（世界的稳定和固定方面）和快速学习（世界的特定任务方面）。这涉及到两个时间尺度的学习，一个是元学习的元参数的外循环，一个是常规参数的常规学习的内循环。事实上，我们可以有两个以上的时间尺度（Clune，2019）：想想进化的外循环，文化学习（Bengio，2014）的稍快循环，它在几代人之间有些稳定，个人人类的更快学习，一生中特定任务和新环境的更快学习，以及运动控制和计划更快的内循环，它们使策略适应即时目标的具体情况，如伸手去拿水果。理想情况下，我们希望建立一个对世界的理解，将尽可能多的学习转移到更慢、更稳定的部分，以便内部学习循环能够更快地成功，需要更少的数据进行适应。

系统泛化和分布外泛化。在本文中，我们关注的是分布外（OOD）泛化的目标，即在训练观察所来自的特定分布之外进行泛化。一种更一般的思考OOD泛化的方式是在面对新任务或变化分布时的样本复杂性概念。一个极端是零样本OOD泛化，而更一般的情况，通常在元学习设置中研究，涉及k样本泛化（来自新分布的k个示例）。

尽管OOD泛化和OOD样本复杂性的概念告诉我们我们想要实现什么（并暗示了我们如何可能衡量它），但它们并没有告诉我们如何实现它。这就是系统泛化的概念变得有趣的地方（Smolensky，1988；Fodor和Pylyshyn，1988；Marcus，1998；McClelland等人，1987）。系统泛化是一种现象，最初在语言学中被研究（Lake和Baroni，2017；Bahdanau等人，2018），因为它是语言的一个核心属性：现有概念（例如单词）的新组合的含义可以从组成概念的含义系统地推导出来。这在语言中非常明显，但人类在其他环境中也能从中受益，例如，通过组合构成它的不同部分的属性来理解一个新物体。系统泛化甚至使得泛化到在训练分布下概率为零的新组合成为可能：不仅仅是它们没有出现在训练数据中，而且即使我们看到了来自训练分布的无限量的训练数据，我们也不会有任何样本显示这种特定的组合。例如，当你第一次阅读一个科幻场景时，这个场景在你的生活中，甚至在今天生活的数十亿人的综合经历中都是不可能的，但你仍然可以想象它并理解它（例如，从开始预测场景的结局）。Bahdanau等人（2018，2019）进行了系统泛化的实证研究，其中语言概念的特定形式的组合存在于训练分布中，但不在测试分布中，而当前方法在性能上受到了影响，而人类可以轻松回答这样的问题。

人类使用提供组合形式的归纳偏差，使得从有限的概念组合集合泛化到更大的概念组合集合成为可能。深度学习已经受益于分布式表示的一种组合优势（Hinton，1984；Bengio和Bengio，2000；Bengio等人，2001），这是神经网络工作如此出色的核心原因。有理论论证为什么分布式表示可以带来潜在的指数优势（Pascanu等人，2013），如果这符合底层数据分布的属性。深度网络中另一种有利的组合形式来自于深度本身，即函数的组合，在适当的假设下，可证明的优势高达指数级（Montufar等人，2014）。然而，我们在这里提出并应该在深度学习中更好地整合的一种组合形式是语言学家定义的系统性（Lake和Baroni，2018），以及最近在机器学习论文中的系统泛化（Bahdanau等人，2018；Ruis等人，2020；Akyürek等人，2020）。

当前的深度学习方法往往过度拟合训练分布。通过查看与训练集相同分布的测试集，这一点不会显现出来，因此我们需要改变评估学习成功的方式，因为我们希望我们的学习代理以系统的方式、超出分布地进行泛化。只有当新环境与之前看到的环境有足够的共享组件或结构时，这才说得通，这对应于对分布变化的某些假设，从而带回了关于分布（例如，共享组件）以及它们如何变化（例如，通过代理的干预）的适当归纳偏差的需要。

接下来两小节的结构如下：在第3节中，我们激发了一些受人类认知启发的系统2归纳偏差。我们认为赋予机器学习系统这些归纳偏差的高效实现可以提高（已经有足够的证据，但要实现人类水平的人工智能还需要取得更多的进展）机器学习模型的泛化和适应性能。在第4节中，我们打开了一个括号来回顾关于因果依赖的材料，以加深第3节中关于与高级语义变量的因果性质相关的归纳偏差的讨论。

3. 基于高级认知的归纳偏差作为实现更好OOD泛化系统的一条路径

人工智能研究与认知神经科学的协同作用。我们的目标是借鉴（并进一步发展）对意识处理认知科学的研究，以提供大大增强的人工智能，具有人类观察到的能力，这要归功于高级推理，除了其他方面，导致通过推理、组合重用现有知识和能够交流的能力来面对不寻常或新颖的情况。同时，新的人工智能模型可以为理解意识处理的神经机制提供新的见解，形成一个良性循环。机器学习程序的优势在于，它们可以针对其有效的学习能力进行测试，在我们的案例中，根据分布外能力或在由于干预而改变的因果环境背景下，例如，如（Ahmed等人，2020）。因为它们必须非常正式，人工智能模型也可以为大脑如何用生物机制实现等效策略提出假设。反过来，测试这些假设可以提供更多关于大脑如何解决相同问题的理解，并帮助完善深度学习系统。

3.1 大脑中有意识与无意识的处理

想象一下，你正在从办公室开车回家。你不需要过多关注道路，你可以和乘客聊天。现在想象一下遇到因施工而导致的道路堵塞：你必须更加注意，你必须留意新的信息，如果乘客开始和你说话，那么你可能会告诉对方，“请让我开车”。有趣的是，当人类面临新情况时，通常需要他们的有意识注意力（Carlson和Dulany，1985；Newman等人，1997）。在驾驶的例子中，当有路障时，你需要集中注意力来思考下一步该做什么，你可能不想被打扰，因为你的有意识注意力一次只能专注于一件事。

在处理有意识处理和需要我们有意识关注的新情况（分布的变化）时，人类处理信息的方式似乎有所不同——无论是在功能上还是在大脑的神经特征上——与我们习惯的日常事务相比。在这些新情况下，我们通常必须思考、专注并关注我们感知、行动或记忆中的特定元素，有时会根据上下文抑制我们的反应（例如，面对新的交通规则或路障）。为什么人类会随着分布的变化而进化出处理这种能力？也许仅仅是因为生活经验高度非平稳。

系统1和系统2。认知科学家区分了习惯性处理和控制处理（Schneider等人，1982；Redgrave等人，2010；Botvinick等人，2001a，b；Mozer等人，2001；Bargh，1984），前者对应于默认行为，而后者需要注意力和心理努力。Daniel Kahneman提出了快速思考和慢速思考的框架（Kahneman，2011），并描述了我们大脑中系统1和系统2的处理方式。有些任务可以仅使用系统1的能力完成，而其他任务还需要系统2和有意识的处理。还有显性（可表述）知识和显性处理（大致对应于系统2）以及隐性（直觉）知识和相应的系统1神经计算的概念。系统1的默认（或无意识）处理可以非常迅速地进行（快达约100毫秒），并动员大脑的许多区域并行工作。另一方面，控制（或有意识）处理涉及一系列思考，通常是可表述的，通常需要几秒钟才能完成。虽然我们可以快速、精确地以习惯的方式行动，而不必刻意思考，但反之则不然：控制处理（即系统2认知）通常需要无意识处理来完成大部分工作。就好像有意识的部分只是顶层程序和冰山一角。然而，它似乎是一个非常强大的部分，使我们能够通过重新组合旧的知识片段，创造性地解决新问题，进行推理，想象解释和未来结果，进行规划并应用或发现因果关系。正是在这个层面上，我们通过自然语言与其他人进行交流。当一个词指代一个我们没有明确可表述和精确解释的复杂概念（比如我们如何学会骑自行车）时，我们仍然可以命名它，并推理它与其它知识片段的关系等等。甚至想象和规划（这是系统2能力的标志）也需要系统1计算来为问题采样候选解决方案（从一个可能是天文数字的数量中，我们永远不必明确检查）。

因此，我们的大脑似乎包含两种非常不同的知识类型：一种是我们可以明确推理并用语言表达的知识（系统2知识），另一种是直觉和隐性的知识（系统1知识）。当我们学习新东西时，它通常开始被明确地表示，然后随着我们更多地练习，它可能会迁移到一种不同的、隐性的形式。当你学习一门新语言的语法时，你可能会得到一些规则，你会尝试在飞行中应用这些规则，但这需要大量的努力，并且进行得非常缓慢。随着你练习这项技能，它可以逐渐迁移到习惯的形式，你犯的错误更少（对于常见的情况），你可以更流利地阅读/翻译/写作，你甚至可能最终忘记原始规则。当引入新规则时，你可能需要将部分处理移回系统2计算，以避免不一致。看起来有意识处理的关键作用之一是以连贯的方式整合来自感知和记忆的不同知识来源。

实现机器人的系统1和系统2 Slow and fast

九次架构改进具身机器人，建模系统2灵活使用工具

全局工作空间理论。上述劳动分工是认知神经科学全局工作空间理论（Global Workspace Theory，GWT）的核心，该理论由Baars提出（Baars，1993，1997），并扩展为全球神经元工作空间模型（Shanahan，2006，2010，2012；Dehaene和Changeux，2011；Dehaene等人，2017；Dehaene，2020）。GWT提出了一种允许专家组件相互作用的架构。GWT的关键主张是存在一个共享表示——有时被称为黑板（McClelland，1986），有时被称为工作空间——可以被任何选定的专家修改，并将其内容广播给所有专家。这种选择基于一种形式的注意力，可以对应于动态选择（基于输入）模块化神经网络中最适合特定上下文和任务的模块或几个模块。受GWT启发的深度学习框架的基本思想是探索类似的通信和协调方案，用于由不同模块组成的神经网络（Shanahan，2006，2005）。GWT理论认为，有意识的处理围绕着大脑选定部分之间的通信瓶颈，这些部分在处理当前任务时被调用。有一个相关性的阈值，超过这个阈值，以前无意识处理的信息可以进入这个瓶颈，实例化在工作记忆中。

当这种情况发生时，这些信息会被广播到整个大脑，使其不同的相关部分同步，迫使每个模块学会与其他模块交换，以一种允许将一个模块替换为另一个模块作为通信内容的来源或目的地的方式，即使用一种共享的“语言”。这些共享的表示可以被许多其他模块解释。这产生了语义表示，这些表示不依赖于特定的模态，但可以被任何感官通道触发。正如我们在本文中一直论证的那样，这使得灵活地获得新知识片段的组合成为可能，从而实现与系统性地超出分布的泛化需求相一致的组合优势。

3.2 注意力作为动态信息流。

GWT提出了一个短暂的记忆容量，其中在任何给定时刻只有一个一致的内容可以占主导地位，这表明了一种比目前在深度学习中占主导地位的软注意力更尖锐的注意力形式，如下所述。注意力是关于顺序选择对哪些量执行哪种计算。让我们考虑一个从英语到法语的机器翻译任务。为了获得一个好的翻译，生成下一个法语单词，我们通常会特别关注源英语句子中可能与翻译相关的“正确”的几个单词。这是激发我们研究基于内容的软自注意力（Bahdanau等人，2014）的动力，但也可能是人类有意识处理的核心，也是未来具有系统1和系统2能力的深度学习系统的核心。

基于内容的软注意力。软注意力形成了一个软选择，从前一级计算的一组元素中选择一个元素（或多个元素），即我们对前一级元素的值进行凸组合。这些凸权重来自于一个softmax，该softmax取决于每个元素的关键向量与某个查询向量的匹配程度。在某种程度上，注意力是并行的，因为计算这些注意力权重会考虑某集合中所有可能的元素，为每个元素生成一个分数，以决定哪个元素将获得最多的注意力。通过随机硬注意力（Xu等人，2015），我们从元素分布中采样以选择关注的内容，而对于软注意力（Bahdanau等人，2014），我们用不同的正凸权重来混合这些内容。基于内容的注意力还将非局部归纳偏差引入神经网络处理，使其能够推断出长距离依赖关系，如果计算受到局部邻近性的影响，这些依赖关系可能很难辨别。注意力是当前最先进的NLP系统的核心（Devlin等人，2018a；Brown等人，2020），也是内存增强神经网络的标准工具（Graves等人，2014；Sukhbaatar等人，2015；Gulcehre等人，2016；Santoro等人，2018）。注意力和记忆还可以通过创建随时间变化的动态跳跃连接（即内存访问）来帮助解决长期依赖的信用分配问题（Ke等人，2018；Kerg等人，2020），从而解决消失梯度和学习长期依赖的问题（Hochreiter，1991；Bengio等人，1994）。注意力还将神经网络从处理向量（例如，深度网络的每一层）的机器转变为处理集合的机器，特别是键/值对的集合，如Transformer（Vaswani等人，2017；Santoro等人，2018）。软注意力使用表示为矩阵Q的查询（或读取键）的乘积，其维度为Nr×d，其中d是每个键的维度，与一组No个对象关联，每个对象都与一个键（或写入键）关联，作为矩阵KT中的一行（No×d），在值的凸包内（或写入值）Vi（矩阵V的第i行）。结果是

其中softmax应用于其参数矩阵的每一行，产生一组凸权重。通过软注意力，我们可以得到V行中值的凸组合，而随机硬注意力会以等于该权重的概率对一个值向量进行采样。如果软注意力专注于某一行的某个元素（即softmax饱和），我们将获得确定性硬注意力：只选择一个对象，并将其值复制到结果的第j行。请注意，键中的d维可以分割成头部，然后分别计算它们的注意力矩阵和写入值。请注意，硬注意力更具生物学合理性（我们一次只能看到一个Necker立方体的解释（Cohen，1959），并且一次只能有一个想法），但软注意力可以实现端到端的训练，并且到目前为止在深度学习架构中最常用，例如，使用变压器（Vaswani等人，2017）。然而，最近的证据表明（Liu等人，2021），如果通信瓶颈被离散化，那么观察到的OOD泛化会更好，可能是因为由此产生的更简单的通用语言使得在模块之间受注意力控制的通信中更容易将一个模块替换为另一个模块。

注意力作为动态连接。我们可以将注意力视为在不同计算块之间创建动态连接的一种方式，而在传统的神经网络设置中，连接是固定的。在注意力选择的输入的接收端（下游模块），很难从所选的上游模块中确定所选值向量的来源。为了解决这个问题，有意义的是，与所选值一起传播的信息包括键、类型或名称的概念，即信息的来源，从而创建了一种间接形式（对信息来源的引用，可以传递给下游计算）。

注意力实现了变量绑定。当每个模块的输入和输出是一组对象或实体（每个对象或实体都与一个键和值向量相关联）时，我们就有了一个通用的对象处理机器，它可以操作类似于编程语言中的变量的“变量”：作为函数的可互换参数。因为每个对象都有一个键嵌入（可以同时理解为名称和类型），所以相同的计算可以应用于任何符合预期“分布式类型”（由查询向量指定）的变量。然后，每个注意力头对应于因子计算的函数的类型化参数。当一个对象的键与头k的查询匹配时，它可以被用作所需计算的第k个输入向量参数。而在常规神经网络（没有注意力）中，神经元对固定输入变量（从前一层提供数据的神经元）进行操作，键值注意力机制使得可以即时选择哪个变量实例（即哪个实体或对象）将被用作某些计算中每个参数的输入，每个参数头都有一组不同的查询嵌入。对选定输入执行的计算可以看作是具有类型化参数的函数，注意力用于将其形式参数绑定到选定输入，尽管在软注意力的情况下是以软可微方式（混合多种可能性）进行的。类型约束已经被发现在因果发现的识别中有用（Brouillard等人，2022）。当前的基于注意力的神经网络已经实现了键值查询软注意力机制（如上所述）。缺少的是处理离散类型、对参数进行硬（但可能是随机的）选择以及更强大的推理机制的能力，这些推理机制不仅使用类型匹配，还能够推理在给定上下文中应该组合哪些模块和变量。

3.3 串行和并行计算的混合。

从计算的角度来看，关于不同模块之间通信动态的一个假设是，不同的模块通常并行运行并从其他模块接收输入。然而，当他们确实需要与另一个任意模块通信信息时，信息必须通过由注意力机制控制的路由瓶颈（全局工作空间）。因为在GWT选择的每一步中，只有很少的元素可以保持一致性，所以推理过程通常需要几个这样的步骤，导致系统2计算的高度序列化特性（与系统1计算的高度并行特性相比）。因此被选中的内容基本上是唯一可以提交到记忆中的内容，从短期记忆开始。工作记忆指的是大脑对最近访问的几个元素（即短期记忆中的元素）进行操作的能力（Baddeley，1992；Cowan，1999）。这些元素可以被记住，并对下一个想法、行动或感知产生重大影响，以及对学习的关注点产生影响，可能在监督学习中发挥类似于期望输出、目标或目标的作用，用于系统1计算。

部分状态。从RL的角度来看，有趣的是要注意，如果GWT持有状态的重要部分（包括规划时的想象未来状态），它并没有描述环境的所有方面，只是其中的一小部分，这在RL文献中已经进行了探讨（Zhao等人，2021）。这与标准的RL方法不同，在标准的RL方法中，输入（或过去输入的序列）被映射到一个固定大小的（估计的和潜在的）状态向量。相反，GWT建议，除了长期记忆内容（大部分内容不会改变）之外，快速变化的状态应该被视为一个非常小的实体集合（例如，对象或对象的特定属性，以及它们之间的关系），其信息内容类似于单个句子的信息内容。这表明神经网络架构在每个推理步骤中只选择非常少的模块和特定的（变量，值）对，基于最近选择的那些，当前的感官输入和当前的记忆内容（也可以竞争对工作空间的写入权限）。只有被选中的模块才需要在组合结果需要调整时进行调整，从而导致选择性适应，类似于（Bengio等人，2019）所探讨的选择性适应（见上文第4.3节），其中只有少数相关模块需要适应分布的变化。

系统2到系统1的整合。作为一个代理，人类会因为自己的行为或环境中其他代理的行为而面临频繁的变化。大多数时候，人类遵循他们的习惯策略，但在处理不熟悉的环境时倾向于使用系统2的认知。这使得人类能够以惊人的强大方式泛化分布之外的情况，理解这种处理方式将有助于我们在AI中建立这些能力。这在我们早期关于在不熟悉交通规则的地区开车的例子中得到了说明，这需要全神贯注的注意（第3.1节）。这一观察表明，为了实现自然界中所需的分布变化的灵活性和鲁棒性，系统2认知至关重要（Shenhav等人，2017；Kool和Botvinick，2018）。看起来当前的深度学习系统在感知和系统1任务方面相当擅长。他们可以通过复杂的计算迅速产生答案（如果你有像GPU那样的并行计算），这种计算很难（或不可能）分解为几个简单的可表述操作的应用。他们需要大量的练习来学习，并且可以在他们训练过的数据类型上变得非常熟练。另一方面，人类拥有系统2的能力，这使得他们能够快速学习（我可以用一句话告诉你一个新规则，你不需要练习就能应用它，尽管一开始可能会笨拙和缓慢）和系统地泛化，这两者都应该是下一代深度学习系统的重要特征。

模块间的中介语和通信拓扑结构。

如果大脑由不同的模块组成，那么思考一下它们之间使用什么代码或通用语进行交流是很有趣的，这样它们就可以动态地选择和组合可交换的知识片段来解决新问题。因此，GWT瓶颈也可能在强制出现这种通用语方面发挥作用（Baars，1997；Koch，2004；Shanahan，2006）：模块A接收到的相同信息（例如“有火”）可以来自任何其他模块（比如说B，它通过嗅觉检测到火，或者C，它通过视觉检测到火）。因此，B和C需要使用一种兼容的表示，通过GWT瓶颈广播供A使用。再次，我们看到了注意力机制在强制出现共享表示和通过意识瓶颈在模块之间交换间接引用方面的关键重要性。然而，GWT瓶颈远非模块之间相互通信的唯一方式。关于模块之间通信通道的拓扑结构，众所周知，大脑中的模块满足一定的空间拓扑结构，使得计算并非在所有模块之间都是全连接的。大脑可能既使用固定的局部或空间上相邻的连接，也使用具有自上而下影响的全局广播系统。我们还知道，视觉皮层中存在层次化的通信路径（从像素到物体识别的路径），我们知道这在计算机视觉中使用卷积神经网络取得了多大的成功。因此，在深度网络中结合这些不同类型的模块间通信方式似乎是明智的（Watts和Strogatz，1998；Latora和Marchiori，2001；Rahaman等人，2020）：（1）在大脑布局中彼此靠近的模块可能可以直接通信，而不需要堵塞全局广播通道（并且这不会被有意识地报告）。（2）在大脑空间布局中彼此相距很远的模块可以通过全局工作空间交换信息，遵循Baars的GTW剧场类比。这种通信路径的另一个优点当然是广播的信息源的可交换性，我们假设这将导致更好的系统性泛化。GWT中工作记忆的作用不仅仅是作为一个通信缓冲区。它还作为一个黑板（或类似CPU中的“寄存器”），可以在本地执行操作以提高一致性。这使得一个寻求一致性的机制成为可能：不同的模块（尤其是活跃的模块）应该采用一种内部变量的配置（尤其是它们与其他模块通信的更抽象的实体），这种配置与其他活跃模块“相信”的一致。有可能，意识处理的大部分功能角色就是为了这个目的，这与将工作记忆视为寻求根据某些知识（如因子图的因子，因果依赖关系）相互作用变量的连贯配置的推理机制的核心元素的看法是一致的。

系统2的归纳偏差

我们提议从认知中汲取灵感，构建能够整合两种非常不同表示和计算的机器，这些表示和计算对应于系统1/隐式/无意识与系统2/显式/有意识的划分。

这篇论文是关于尚未充分整合到最先进深度学习系统中的归纳偏差，但这些偏差可以帮助我们实现这些系统2的能力。在接下来的小节中，我们将总结其中一些系统2的归纳偏差。

3.4 描述可表达概念的语义表示

意识内容通过语言（Colagrosso和Mozer，2004）来揭示。这表明，高级变量与它们的语言表达形式（如单词和短语）密切相关。这产生了我们在这篇论文中想要考虑的最具影响力的归纳偏差：高级变量（有意识地操作）通常是可表达的。简单地说，我们可以想象在这个表示的最高层次捕获的高级语义变量与单个单词相关联（尽管我们也可以使用单词来识别一些低级变量）。在实践中，单词的概念在不同的语言中并不总是相同的，同一个语义概念可能由一个单词或一个短语表示。在心理表征中也可能有更多的微妙之处（如考虑不确定性、概念表征和连续值属性），这些微妙之处并不总是或不容易在其语言表达中得到很好的反映。我们的大脑实际上知道的很多东西都不能轻易地用自然语言翻译，并形成关于系统1知识的内容。这意味着系统2（可表达的）知识是不完整的：单词主要是指向属于系统1的知识的指针，因此在很大程度上不是有意识地可访问的。系统2的归纳偏差不需要涵盖我们对世界内部模型的所有方面（它们不能），只需要涵盖我们能够用语言表达的知识的那些方面。其余的将不得不用纯系统1（非系统2）机制来表示，例如在一个可以将低级动作和低级感知与可以在系统2级别操作的语义变量关联起来的编码器-解码器中。如果有一些属性很好地适用于世界的某些方面，那么对于学习者来说，拥有一个利用这些属性的子系统（这里描述的归纳先验）和一个模拟其他方面的子系统将是很有优势的。这些归纳先验然后允许更快的学习，并可能带来其他优势，如系统性泛化，至少在与这些假设（在我们的案例中是系统2知识）一致的世界的这些方面。

高层表示描述了可表述的概念语义表示通过GWT瓶颈到自然语言表达有一种简单的有损映射。这是一种可以在地面化语言学习场景中被利用的归纳偏差（Winograd, 1972; Hermann et al., 2017; Chevalier-Boisvert et al., 2018; Hill et al., 2019），在这些场景中，我们将语言数据与代理的观察和行动结合起来。

这表明，自然语言理解系统应该以一种将自然语言与其所指内容相结合的方式进行训练。这就是基础语言学习的理念。它将给顶层表示施加压力，使其捕捉到用语言表达的概念类型。人们可以将其视为一种弱监督形式，我们并不强迫顶层GWT表示成为人类指定的标签，只是这些表示和人类通常会与相应含义关联的话语之间存在简单关系。我们关于因果关系的讨论也应该表明，被动观察可能是不够的：为了捕捉到人类理解的因果结构，学习代理可能需要嵌入到一个他们可以行动并因此发现其因果结构的环境中（Binz和Schulz，2022；Kosoy等人，2022）。研究这种设置是我们对Baby AI环境工作的动机（Chevalier-Boisvert等人，2018）。

3.5语义变量起着因果作用，关于它们的知识是模块化的

生物现象，如鸟群，启发了几个分布式多代理系统的设计，例如，群体机器人系统、传感器网络和模块化机器人。尽管如此，大多数机器学习模型采用了相反的归纳偏差，即所有元素（例如，人工神经元）始终相互作用。GWT（Baars，1997；Dehaene，2020）还认为，大脑是以模块化的方式组成的，有一组专家模块需要通信，但只通过一个瓶颈进行稀疏通信，任何时候只有少数选定的信息位可以通过这个瓶颈。如果我们相信这个理论，这些被选中的元素就是我们在任何时候头脑中存在的概念，其中一些被调用并加入到工作记忆中，以便调和大脑中不同模块专家的解释。将知识分解为可重组的部分，这是基于规则的经典AI的一个特点（Russell，2010），也是有意义的，因为它是获得系统性泛化的要求（Bahdanau等人，2018）：然后，有意识的注意力会选择哪些专家和哪些概念（我们可以将其视为具有不同属性和值的变量）与存储在模块专家中的哪些知识片段（可能是可表达的规则或关于这些变量的不可表达的直觉知识）相互作用。另一方面，没有参与这种有意识处理的模块可能会继续以默认或习惯性计算的形式在后台工作（这可能是大多数感知的形式）。例如，考虑一个任务，从像素级信息预测有时相互碰撞以及与墙壁碰撞的球的运动。有趣的是，所有的球都遵循它们的默认动力学，只有当球碰撞时，我们需要交叉来自几个反弹球的信息，以便推断它们未来的状态。说大脑模块化知识是不够的，因为可能有大量的方法以模块化的方式分解知识。我们需要考虑所获取知识的模块化分解的期望属性，我们在这里提出从因果角度理解世界如何运作，以帮助我们定义正确的变量集及其关系。

语义变量通常也是因果变量我们假设语义变量通常也是因果变量。自然语言中的单词通常指的是代理（主体，导致事情发生）、对象（由代理控制）、动作（通常通过动词）以及代理、对象和动作的模态或属性（例如，我们可以谈论未来的动作，作为意图，或者我们可以谈论事件发生的时间和空间，或者对象或动作的属性）。然而，请注意，我们也可以命名许多低级（如像素）和中间特征（如L形边缘）。因此，我们可以合理地假设，我们可以用语言表达的那种因果推理涉及到我们可以命名的那些语义变量作为感兴趣的变量，并且它们可以位于大脑处理层次的任何层次，包括最高层次的抽象，例如前额叶皮层（Cohen等人，2000），在那里概念可以以一种不特定于单一模态的方式被操纵。

因果表示和模块化之间的联系是深刻的：一个通常与结构因果模型相关的假设是，它应该将关于因果影响的知识分解为独立的机制（Peters等人，2017b）。如第4.1节所述，每个这样的机制将直接原因与它们的直接效应联系起来，对一个这样的机制的了解不应该告诉我们关于另一个机制的任何信息（否则我们应该重组我们的表示和知识分解，以满足这个信息论独立性属性）。这与相应随机变量的统计独立性无关，而是关于这些机制描述之间的算法互信息。对于分布外适应来说，实际和重要的是，如果一个机制发生变化（例如，因为干预），该机制的表示（例如，用于捕获相应条件分布的参数）可能需要适应，但其他机制的表示不需要调整以解释这一变化（Bengio等人，2019）。这些机制可以以科学家试图识别的因果图的形式组织起来。语义变量之间的联合分布变化的稀疏性（在第3.6节中讨论更多）是不同的，但与这种高级结构因果模型的一个属性有关：捕获联合分布本身的图的稀疏性（在第3.8节中讨论）。此外，正如第3.7节所讨论的，因果结构、因果机制和高级因果变量的定义在分布变化中往往是稳定的。

3.6 语义空间中分布的局部变化

考虑一个学习代理，如学习机器人或学习儿童。假设环境在任何特定时刻都处于某种（通常未观察到的）状态，这种代理观察到的观测分布的非平稳性来源是什么？两个主要来源是（1）由于环境动态（包括学习者的行动和政策）尚未收敛到平衡分布（或等价地，环境的随机动态的混合时间比学习代理的寿命更长）导致的非平稳性，以及（2）代理（感兴趣的学者或其他代理）的因果干预。第一种类型的变化包括例如一个人搬到不同的国家，或电子游戏玩家学习玩一个新游戏或现有游戏的从未见过的关卡。第一种类型还包括由于学习引起的代理策略变化导致的非平稳性。第二种情况包括诸如在迷宫中锁上一些门（这可能对最优策略产生巨大影响）的行动的效果。这两种类型可以交叉，因为代理（包括学习者，如从一个地方移动到另一个地方）的行动促成了第一种类型的非平稳性。

分布的变化在适当的语义空间中是局部的让我们考虑一下人类如何用语言描述这些变化。对于其中的许多变化，他们能够用几句话（通常是一个句子）解释变化的来源。这为我们提出的将大多数分布变化的来源局限于适当语义空间的假设作为一个归纳偏差提供了一个非常强烈的线索：只需要修改一个或几个变量或机制来解释变化。

注意，当人类不能用几个现有的词来解释一个变化时，他们会创造新的词，这些新词对应于新的潜在变量，当引入这些新词时，变化就变得“容易”解释了（假设人们理解了这些变量以及它们与其他变量之间的机制的定义）。对于系统2的分布变化（由于干预），我们自动得到了变化源的局部性（从因果图的一个或几个节点开始）。这是一个合理的假设，因为由于时间和空间的局部性，行动只能直接影响很少的高层变量，其他影响（对下游变量的影响）是初始干预的结果。这种变化源的稀疏性是一个强有力的假设，它可以给学习过程带来压力，使其发现具有这种特性的高级表示。在这里，我们假设学习者必须共同发现这些高级表示（即它们与低级观察和低级行动的关系），以及高级变量如何通过因果机制相互关联。

3.7 世界的稳定属性

上面，我们已经讨论了由于非平稳性导致的分布变化，但世界上有一些方面是平稳的，这意味着关于它们的学习最终会收敛。在一个理想的情况下，我们的学习者有无限的生命，有机会了解关于世界的所有信息（一个没有其他代理人的世界），并建立它的完美模型，在这个时候，没有什么东西是新的，所有上述非平稳性的来源都消失了。在实践中，学习代理只能理解世界的一小部分，代理人之间的互动（特别是如果他们正在学习的话）将永远使世界处于非平衡状态。如果我们将代理捕获的关于世界的知识分为平稳方面（应该收敛）和非平稳方面（通常会不断变化），我们希望在平稳类别中有尽可能多的知识。模型的平稳部分可能需要很多观察才能收敛，这没关系，因为这些部分的学习可以在整个生命周期中摊销（甚至在多个合作文化代理的情况下，例如在人类社会中，可以在多个生命周期中摊销）。另一方面，学习者应该能够快速学习非平稳部分（或学习者尚未意识到可以纳入平稳部分的部分），理想情况下，如果知识结构良好，那么这些部分中只有很少需要改变。因此，我们看到至少需要两种学习速度，类似于元学习中可学习的系数分为一方面（用于稳定、缓慢学习的方面）的元参数和另一方面（用于非平稳、快速学习的方面）的参数，如上文第2节所述。

世界稳定与不稳定属性学习应该有几种速度，更稳定的方面学习得更慢，更非平稳或新颖的方面学习得更快，并且在快速变化的方面发现稳定方面的压力。这种压力意味着代理人对世界知识的更多方面变得稳定，因此在分布发生变化时需要调整的内容更少。

例如，考虑科学定律，当它们是普遍的时候，它们是最强大的。在另一个层面上，考虑感知输入、低级行动和高级语义变量之间的映射。实现这种映射的编码器应该理想地高度稳定，否则下游计算需要跟踪这些变化（事实上，低级视觉皮层似乎计算的特征在整个生命周期中都非常稳定，与新的视觉类别等高级概念相反）。因果干预发生在比编码器更高的层次，改变一个未观察到的高级变量的值或改变其中一个机制。如果需要一个新的概念，它可以被添加而不必干扰其他表示的知识，特别是如果它可以被学习为现有高级特征和概念的组合。我们从观察人类和他们的大脑中知道，不是从旧概念组合中获得的新概念（比如一项新技能或一个完全新的物体类别，不是通过组合现有特征获得的）需要更多的时间来学习，而可以从其他高级概念轻松定义的新高级概念可以非常快地学习（快到一个例子或定义的速度）。从因果系统分析中得出的另一个例子是，因果干预（属于非平稳、快速推断或快速学习类别）可能会临时修改因果图结构（指定哪个变量是哪个的直接原因），方法是打破因果联系（当我们设置一个变量时，我们会打破来自其直接原因的因果联系），但大部分因果图是环境的一个稳定属性。因此，我们需要神经架构，使其易于快速适应现有概念之间的关系，或从现有概念定义新概念。

3.8 语义变量空间中的稀疏因子图 factor graph

变量和因子如何相互作用的稀疏性 我们对高级变量的下一个归纳偏差可以简单地表述为：高级概念之间的联合分布可以用稀疏因子图表示。

任何联合分布都可以表示为一个因子图（Kschischang等人，2001；Frey，2012；Kok和Domingos，2005），但我们声称那些可以用自然语言方便描述的分布具有稀疏性。因子图是联合分布的一种特殊分解。因子图是二分的，一边是变量节点，另一边是因子节点。因子节点表示它们所连接的变量之间的依赖关系。为了说明可表达知识的稀疏性，考虑知识图和其他关系系统，其中变量之间的关系通常只涉及两个参数（即两个变量）。在实践中，我们可能希望因子具有多于两个参数，但可能不会多很多。一个因子可以捕捉其参数变量之间的因果机制，因此我们应该为这些因子引入一个额外的语义元素：因果因子的每个参数要么扮演原因的角色，要么扮演结果的角色，使二分图具有方向性。

通过注意到关于世界的陈述可以用一个句子来表达，而每个句子通常只有几个单词，从而涉及很少的概念，很容易看出语言表达的知识满足这种稀疏性。当我们写“如果我放下球，它会落在地上”时，这个句子显然只涉及很少的变量，但它可以对球的位置做出非常强的预测。因子图中涉及变量子集S的因子只是陈述这些变量之间的概率约束。它允许我们在给定其他变量的情况下预测一个变量的值（如果我们忽略其他约束或因子），或者更一般地说，它允许我们描述对S的子集的值的偏好。自然语言允许我们在如此少的变量条件下做出如此强烈的预测，这应该被视为令人惊讶的：它之所以有效，是因为这些变量是语义变量。如果我们考虑图像中像素值的空间，很难找到这样的强预测规则，例如，根据其他三个像素值预测一个像素的值。这意味着像素空间不满足与提议的归纳偏差相关的稀疏先验。我们声称，所提出的归纳偏差与GWT意识处理的瓶颈密切相关。我们对GWT中写入访问的限制的解释是由注意力机制动态选择的非常少数的专家，它源于对广播的高级变量之间的联合分布形式的假设。如果联合分布因子图是稀疏的，那么在推理过程的每一步中，只需要同步几个变量（涉及一个因子或几个连接因子的变量）。通过限制工作记忆的大小，进化可能因此强制了因子图的稀疏性。GWT还声称，工作区与认知的有意识内容相关联，这些内容可以用语言表达。人们还可以与原始的冯·诺依曼计算机架构建立联系。在GWT和冯·诺依曼架构中，我们都有一个通信瓶颈，在前者中，工作记忆在执行操作的后者CPU寄存器中。通信瓶颈只允许将少数变量带到中心（大脑中的工作记忆，CPU中的寄存器）。此外，对这些变量的操作非常稀疏，因为它们一次只接受很少的变量作为参数（不超过工作记忆中的少数，在大脑的情况下，通常在典型的汇编语言中不超过两三个）。这种稀疏性约束与将计算分解成小块是一致的，每个块只涉及几个元素。在稀疏因子图假设的情况下，我们只考虑声明性知识的稀疏性约束（用语言表达“世界如何运作”，它的动态和统计或因果结构）。

关于我们深度学习层次结构顶部的顶级变量之间联合分布的这种假设不同于许多关于解开disentangling变异因素的论文中常见的假设（Higgins等人，2016；Burgess等人，2018；Chen等人，2018；Kim和Mnih，2018；Locatello等人，2019），在这些论文中，高级变量被假定为彼此边际独立，即它们的联合分布分解为独立的边际。我们认为这与深度学习的原始目标相背离，即学习抽象的高级表示，捕捉数据的潜在解释。请注意，可以通过某种转换（考虑结构因果模型中的独立噪声变量，第4节）轻松地将一种表示（具有分解的联合）转换为另一种表示（具有非分解的联合）。然而，我们将失去到目前为止引入的属性（每个变量都是因果的，对应于一个词或短语，因子图是稀疏的，分布的变化可以归因于一个或很少的变量或因子）。与其将高级变量视为完全独立，我们建议将它们视为具有非常结构化的联合分布，具有稀疏因子图和其他特性（例如，可以从通用模式或规则实例化的依赖关系，如下所述）。我们认为，如果这些高级变量必须捕获可用自然语言表达的语义变量，那么这些高级语义变量的联合分布必须具有稀疏依赖关系，而不是独立。例如，像“桌子”和“椅子”这样的高级概念并不是统计上独立的，相反，它们之间存在着强大而稀疏的关系。与其在最高级别的表示上施加完全独立的强大先验，我们可以有这样一个稍微弱一些但非常有结构的先验，即联合由稀疏因子图表示。有趣的是，最近的研究证实，生成对抗网络（GANs）中的顶层变量在构造上是独立的，通常没有语义解释（作为一个词或短语），而较低层次中的许多单元确实有语义解释（Bau等人，2018）。为什么不用有向图模型表示因果结构呢？在这些模型中，它们是标准因果结构表示的基础（例如，在下面的结构因果模型中），要学习的知识存储在每个变量（给定其直接因果父节点）的条件分布中。然而，目前尚不清楚这是否与独立机制的要求一致。例如，典型的口头表达的规则具有许多规则可以应用于同一变量的属性。坚持认为独立的知识单位是条件性的，然后将必然把相应的因素归入同一条件。如果我们认为规则是可以重用于许多不同实例元组的通用知识片段，那么这个问题就变得更加严重了，正如下一小节所阐述的。采用不受限于无环图的公式的另一个原因是，人类也会推理处于平衡状态的变量之间的关系（如电压和电流），它们可以相互成为对方的原因（即箭头可以双向）。

3.9 变量、实例和可重用知识片段

标准的图模型是静态的，每个条件分布（在有向无环图中）或因子（在因子图中）都有一组单独的参数。有一些扩展允许参数共享，例如通过时间使用动态贝叶斯网络（Spirtes等人，2000），或在无向图模型中，如马尔可夫网络（Kok和Domingos，2005），它们允许将一般“模式”实例化为因子图中的多个因子。例如，马尔可夫网络可以实现递归应用的概率规则的形式。但它们没有利用分布式表示和深度学习的其他归纳偏差。我们在这里提出的归纳偏差是，不是单独定义因子图中的特定因子（也许每个因子都有一段神经网络），每个因子都有自己的一组参数，而是定义通用的因子，“模式”或“因子模板”。一个模式，或通用因子，是一个可重用的概率关系，即，其参数变量可以绑定到实例（也在（Rumelhart等人，1986）中讨论过）。一个静态实例化规则就像“如果约翰饿了，他就会找食物”。相反，一个更一般的规则是像“对于所有的X，如果X是一个人并且X饿了，那么X会找食物”（有一定的概率）。X可以绑定到特定的实例（或绑定到其他变量，这些变量可能涉及对可接受集合的更多约束）。在经典的符号AI中，我们有统一机制来匹配变量、实例或涉及变量和实例的表达式，从而跟踪变量最终如何被“绑定”到实例（或对其属性有更多约束的变量），当探索某个模式是否可以应用于具有属性（构成实体数据库）的某些对象（实例或更通用的对象）时。所提出的归纳偏差也受到自然语言语义中存在这种结构以及我们倾向于根据关系组织知识的方式的启发，例如，在知识图中（Sowa，1987）。自然语言允许我们陈述涉及变量的规则，而不仅仅是对特定实例进行陈述。

知识是通用的，可以在不同的实例上进行实例化。指定变量之间依赖关系的独立机制（具有单独的参数）是通用的，即，它们可以以多种可能的方式实例化为具有适当类型或约束的特定参数集。

在实践中，这意味着我们不需要在内存中保存完整的实例化图，其中包含所有可能的实例和所有可能的关联机制（或者更糟糕的是，与数据兼容的所有通用因子实例化，在贝叶斯后验中）。相反，推理涉及到生成所需的图的部分，甚至在抽象层面上进行推理（即演绎），其中图中的节点（随机变量）不代表实例，而是代表属于某个类别或满足某些约束的实例集合。虽然可以展开循环神经网络或贝叶斯网络以获得完全实例化的图，但在我们所讨论的情况下，类似于马尔可夫网络，通常无法做到这一点。这意味着推理过程总是查看（部分）展开的图的一小部分，并且它们可以推理如何组合这些通用模式，而不需要使用世界中的具体实例或具体对象来完全实例化它们。受我们如何进行编程的启发，思考这个问题的一种方式是，我们拥有带有通用且可能是类型化变量的函数作为参数，并且我们拥有将要应用程序的实例。在任何时间（就像你在Prolog中那样），推理引擎必须将规则与当前实例（因此参数之间的类型和其他约束得到尊重）以及其他元素（例如我们试图通过计算实现的目标）相匹配，以便组合适当的计算。将这样的计算控制器视为具有注意力和内存访问作为操作的内部策略是有意义的，以选择需要组合哪些知识片段和哪些短期（偶尔是长期）内存片段，以便在工作内存中推送新值（Shanahan和Baars，2005；Shanahan，2006；Baars，1993，1997）。这种表示的一个有趣结果是，可以将相同的知识（即由将多个抽象实体链接在一起的schema指定的知识）应用于不同的实例（即认知心理学中的不同“对象文件”（Noles等人，2005；Gordon和Irwin，1996；Kahneman等人，1992））。例如，你可以将相同的物理定律应用于两个视觉上不同的球（可能具有不同的颜色和质量）。这也与编程中的参数和间接引用概念有关。这种关系推理的力量在于它能够产生受元素所扮演的角色约束的推断和概括，并且它们可以扮演的角色可能取决于这些元素的属性，但是这些模式指定了实体如何以系统（可能是新颖的）方式相互关联。在极限情况下，关系推理从有限且通常非常小的观察案例集合中产生普遍的归纳概括，只要这些实例可以被描述为允许将其绑定到适当模式的属性（指定类型）。

我们已经讨论了两种形式的知识表示：声明性知识或假设，即可被口头表达的知识（例如事实、假设、显式因果关系等），以及用于推理这些知识片段的推理机制。标准图形模型只表示声明性知识，通常需要昂贵的但通用的迭代计算（如蒙特卡罗马尔可夫链）来执行近似推理（Cowles和Carlin，1996；Gilks等人，1995）。然而，大脑需要快速推理（Gigerenzer和Goldstein，1996），深度学习的大部分进展都与这种学习快速推理计算有关。仅使用声明性知识（图形模型）进行推理非常灵活（可以回答任何形式的问题“在给定其他变量或想象干预的情况下预测一些变量”），但也非常慢。一般来说，搜索与给定上下文一致的高级变量值的良好配置在计算上是棘手的。然而，可以做出不同的近似，以计算成本换取找到的解决方案的质量。这种差异也可能是系统1（快速、并行、近似和不灵活的推理）和系统2（较慢、顺序但更灵活的推理）之间差异的一个重要因素。我们还知道，在系统2被反复要求处理新情况后，大脑倾向于将这些反应模式固化在习惯性的系统1回路中，这些回路可以更快、更准确地完成推理任务，但失去了一些灵活性。当引入新规则时，系统2足够灵活地处理它，需要再次调用慢速推理。神经科学家还积累了证据表明，海马体参与重播序列（来自记忆或想象）以巩固到皮质（Alvarez和Squire，1994；Hassabis等人，2007），以便它们可能被提交到皮质长期记忆和快速推理。

3.10 相关的因果链（用于学习或推理）可以近似为非常短的链

在基于时钟的分割中，离散时间步之间的边界均匀分布（Hihi和Bengio，1995；Chung等人，2016；Koutnik等人，2014）。在基于事件的分割中，边界取决于环境的状态，导致间隔的动态持续时间（Mozer和Miller，1997）。我们的大脑似乎将感官输入流分割成可变长度的事件和事件的有意义的表示（Suddendorf和Corballis，2007；Ciaramelli等人，2008；Berntsen等人，2013；Dreyfus，1985；Richmond和Zacks，2017）。在时间流中检测相关事件会触发对该事件的信息处理。基于事件的分割的心理现实可以通过一个熟悉的现象来说明。考虑从一个地点到另一个地点的经历，例如从家到办公室。如果路线不熟悉，就像一个人刚开始一份新工作时一样，旅行会让人感到困惑且漫长，但随着一个人沿着路线获得更多经验，他会觉得旅行变得更短。这种现象的一种解释如下。在不熟悉的线路上，检测新事件的定向机制会在整个行程中被大量此类事件触发。相比之下，熟悉的线路上很少发生新事件。如果我们对时间的感知是基于事件的，这意味着更高层次的认知中心计算在一个时间窗口内发生的事件数量，而不是毫秒数，那么人们会感觉熟悉的旅行比不熟悉的旅行更短。

相关的因果链往往是稀疏的。我们的下一个归纳偏差几乎是关于因果变量和高级变量之间联合分布的因子图稀疏性的偏差的后果。用于执行学习（想象反事实并传播和分配信用）或推理（获得解释或实现某些目标的计划）的因果链被分解为短暂的事件因果链，这些事件可能在时间上相距甚远，但通过语义变量上的顶层因子图连接起来。

至少在意识层面上，由于短期记忆的限制和意识处理的瓶颈，人类无法同时推理许多这样的事件（Baars，1997）。因此，人类可能会利用数据中时间依赖性的假设：最相关的只涉及短依赖链，或直接依赖关系的小深度图。这里的深度指的是事件之间相关依赖关系图中最长的路径。我们之前展示的是，这个先验假设是缓解消失梯度问题的最强成分，这个问题在试图学习长期依赖关系时会发生（Bengio等人，1994）。

3.11 涉及目标、自上而下影响和自下而上竞争的上下文相关处理

人类的成功感知显然依赖于自上而下和自下而上的信号（Buschman和Miller，2007；Beck和Kastner，2009；McMains和Kastner，2011；Kinchla和Wolfe，1979；Rauss和Pourtois，2013；McClelland和Rumelhart，1981）。自上而下的信息编码了与当前场景相关的上下文、先验和预想：例如，当我们进入一个熟悉的地方时，我们可能期望看到什么。自下而上的信号包括通过感官实际观察到的内容。结合自上而下和自下而上信号的最佳方式仍然是一个悬而未决的问题，但很明显，这些信号需要以一种动态且依赖于上下文的方式结合在一起——特别是当刺激本身嘈杂或难以解释时（例如走进一个黑暗的房间），自上而下的信号尤其重要。此外，哪些自上而下的信号是相关的也随着上下文的变化而变化。有可能结合特定的自上而下和自下而上的信号，这些信号可以被动态加权（例如使用注意力），以提高对干扰和噪声数据的鲁棒性。除了动态结合自上而下和自下而上信号的一般要求外，在处理层级的每一级都这样做是有意义的，以便在该计算的每个阶段充分利用这两种信息来源，正如在视觉皮层中所观察到的那样（具有非常丰富的影响每一级活动的自上而下信号）。

动态整合自下而上和自上而下的信息支持这样的架构：在低级别和高级别表示相关的计算层次的每一级，自上而下的上下文信息与自下而上的感官信号动态结合。

4. 因果结构的声明性知识

虽然统计模型捕获单个联合分布，但因果模型捕获大量的联合分布，每个对应于不同的干预（或一组干预），这修改了未受扰动或默认分布（例如，通过移除节点的父节点并为该节点设置值）。虽然联合分布P(A, B)可以分解为P(A)P(B|A)或P(B)P(A|B)（其中通常两个图结构都可以同样好地拟合数据），但只有一个图对应于正确的因果结构，因此可以一致地预测干预的效果。这种不对称性最好用一个例子来说明：如果A是海拔高度，B是平均温度，我们可以看到干预A会改变B，但反之则不然。预备知识给定一组随机变量Xi，贝叶斯网络通常用于通过有向无环图（DAG）描述概率和因果模型的依赖结构。在这种图结构中，一个变量（由特定节点表示）在给定所有直接邻居的情况下独立于所有其他变量。边缘方向识别图变量的联合分布的特定因式分解：

干预。如果没有实验或干预，即在纯观察环境中，已知因果图只能区分到一个马尔可夫等价类，即与观察到的依赖关系兼容的图集合。为了识别真正的因果图，学习者需要执行干预或实验，即通常需要干预数据（Eberhardt等人，2012）。

4.1 独立因果机制。

关于世界如何运作的一个强大假设来自于因果关系的研究（Peters等人，2017b），并在前面简要介绍过，即世界的因果结构可以通过独立因果机制的组合来描述。

独立因果机制（ICM）原则。一个复杂的生成模型，无论是否与时间有关，都可以被认为是由不相互通知或影响的独立机制组成的。在概率情况下，这意味着一个特定的机制不应该通知（在信息论意义上）或影响其他机制。

这个原则包含了因果关系中几个重要的概念，包括因果变量的独立可干预性、子系统的模块性和自主性，以及不变性（Pearl，2009；Peters等人，2017a）。

应用于方程1中的分解原理告诉我们，不同的因子应该在以下意义上是独立的：(a) 对其中一个机制进行干预

不会改变任何其他机制

， (b) 知道一些其他机制

并不会给我们提供关于任何其他机制

的信息。

‍

4.2 利用因果干预引起的分布变化

大自然不会打乱例子。真实数据以非独立同分布的形式到达我们，因此在实践中，许多数据科学从业者或研究人员在收集数据时所做的就是对数据进行洗牌，使其成为独立同分布。“大自然不会打乱数据，我们也不应该”Bottou（2019）。当我们打乱数据时，我们破坏了关于那些在我们收集的数据中固有且包含因果结构信息的分布变化的有用信息。我们应该使用这些信息，而不是破坏关于非平稳性的信息，以便了解世界是如何变化的。

4.3 元学习、因果关系、OOD泛化和快速迁移学习之间的关系

为了说明元学习、因果关系、OOD泛化和快速迁移学习之间的联系，考虑来自（Bengio等人，2019）的例子。我们考虑两个离散随机变量A和B，每个变量有N个可能的值。我们假设A和B是相关的，没有任何隐藏的混杂因素。目标是确定潜在的因果图是A→B（A导致B）还是B→A。请注意，这个潜在的因果图不能仅从单一（训练）分布p的观测数据中识别出来，因为两个图对于p都是马尔可夫等价的，即与任何大小的观测数据一致。为了消除这两个假设之间的歧义，（Bengio等人，2019）除了我们原始的训练分布p的样本外，还使用了来自某个转移分布p的样本。不失一般性，他们将真实的因果图固定为A→B，这对学习者来说是未知的。此外，为了使情况更加有力，他们考虑了一种称为协变量偏移的设置，其中他们假设训练和转移分布之间的变化（其性质对学习者来说是未知的）发生在对原因A的干预之后。换句话说，A的边缘改变了，而条件p(B|A)没有改变，即p(B|A)= ˜p (B|A)。对原因的更改将是最具信息量的，因为它们将对B产生直接影响。（Bengio等人，2019）通过实验发现，这足以识别因果图，而（Priol等人，2020）则在干预发生在原因的情况下，用理论论证证明了这一点。

为了证明选择因果模型A→B而不是反因果模型B→A的优势，（Bengio等人，2019）比较了两个模型适应转移分布p˜样本的速度。他们量化了适应速度，即在大量训练分布数据上训练的两个模型开始，通过对示例对数似然进行（随机）梯度上升的多步微调后的对数似然。他们通过模拟表明，与潜在因果结构相对应的模型适应得更快。此外，当在少量数据上进行适应时，因果模型和反因果模型在看到更多干预后示例时所做预测的质量差异更为显著，这些数据的数量级为10到30个来自转移分布的样本。事实上，从渐近的角度来看，两个模型都能完美地从干预中恢复过来，并且无法区分。这很有趣，因为它表明从少数示例（在分布变化后）泛化实际上比从大量示例泛化包含更多关于因果结构的信息（而在机器学习中，我们倾向于认为更多的数据总是更好的）。（Bengio等人，2019）利用这一特性（两个模型之间性能的差异）作为一个噪声信号来推断因果关系的方向，这在这里等同于选择如何对联合分布进行模块化。与元学习的联系在于，在元学习的内循环中，我们适应分布的变化，而在外循环中，我们逐渐收敛到一个良好的因果结构模型（它描述了跨环境和干预的共享内容）。这里的元参数捕获了对因果图结构和默认（未受干扰的）条件依赖性的信念，而内循环参数则是那些捕获由于干预而导致的图变化的参数。（Ke等人，2019）进一步扩展了这一想法，以处理两个以上的变量。为了模拟因果关系和分布外泛化，我们可以将现实世界的分布视为因果机制的组合。分布的任何变化（例如，从一个设置/域移动到一个相关的设置/域）都被归因于尽可能少（但至少一个）的这些机制的变化（Goyal等人，2019a；Bengio等人，2019；Ke等人，2019）。一个do干预或硬干预会将一个变量的值设置为某个值，而不考虑该变量的因果父节点，从而将该节点与其父节点在因果图中断开连接。通过推断这种图手术，一个智能代理应该能够识别和理解这些稀疏的变化，并迅速将其预先存在的知识适应到这个新领域。当前的一个假设是，定义在适当因果变量上的因果图形模型将比定义在错误表示上的模型更高效地学习。基于元学习的初步工作（Ke等人，2019；Dasgupta等人，2019；Bengio等人，2019）表明，通过参数化正确的变量和因果结构，捕获（联合）观测分布的图形模型的参数可以更快地适应由于干预而导致的分布变化。这是因为需要调整的参数更少（Priol等人，2020）。从这个意义上说，学习因果表示可能会立即降低机器学习模型的样本复杂度。

4.4 作为因果模型一部分的动作和可供性

理解原因和结果是人类认知体验的一个关键组成部分。人类是行动者，他们的行为会改变世界（有时只是以微小的方式），这些行为可以让他们了解世界中的因果结构。理解这种因果结构对于规划进一步的行动以实现期望的结果，或将功劳归于自己或他人的行为，即理解和应对世界上发生的分布变化是很重要的。然而，在像儿童或机器人所经历的现实环境中，代理通常并不完全知道执行了什么抽象动作，需要在那个基础上进行推理。因此，代理会有一个关于潜在因果变量（它们如何相互影响和相互关联）的因果模型，一个将低级动作与干预（或改变特定高级变量的意图）联系起来的干预模型，以及一个观察模型（将高级因果变量和感官观察联系起来）。除了这些模型之外，它还将拥有与之相关的推理机制，包括生成目标（即以特定方式干预的意图）的高级策略。这种观点的人类中心版本是可供性心理学理论（Gibson，1977；Cisek，2007；Pezzulo和Cisek，2016），它可以与强化学习中的预测状态表示联系起来：我们可以用物体做什么？这些行为的后果是什么？学习可供性作为代理如何通过控制物体和影响其他代理来引起环境变化的表示，比学习数据分布更强大。它不仅使我们能够预测我们可能根本没有观察到的行为的后果，而且还使我们能够设想不同的相互作用物体和代理组合将产生哪些可能性。这种思维方式直接与机器学习和强化学习领域关于环境方面的可控性的工作相关（Bengio等人，2017；Thomas等人，2017）。关于如何定义因果变量的一个线索是，确实存在一些动作或技能可以控制一个因果变量，而不会直接影响大多数其他变量（即，除了被控制的因果变量的影响之外）。因此，学习者需要发现一个干预模型（什么动作会导致什么干预），但是因果图中干预的局部性也可以帮助学习者找出因果变量的一个好的表示空间。

5. 结论

为了能够处理动态、不断变化的条件，我们希望从能够执行系统1任务的深度统计模型转变为也能够执行系统2任务的深度结构模型，方法是利用系统1能力的计算工具。今天的深度网络可能会从额外的结构和归纳偏差中受益，以便在系统2任务、自然语言理解、分布外系统泛化和高效迁移学习方面做得更好。我们已经试图澄清其中一些归纳偏差可能是什么，但是还需要做很多工作来提高对这些偏差的理解，并找到合适的方法将这些先验纳入神经架构和训练框架。我们在预期（以及在最近的工作中观察到的）分布外泛化和迁移设置中的快速适应方面的收益，而不是与训练集来自同一分布的标准测试集，来激发这些归纳偏差。这里的一般见解是，所提出的归纳偏差应该有助于将知识组织成稳定可重用的部分，这些部分在新环境和任务中可能是有用的（如因果机制），将它们与更不稳定的信息片段（变量的值）分开，这些信息片段可以被代理（通过因果干预）改变，或者受到这些变化的影响，并可能因环境或任务而异。在我们提出的归纳偏差中，有一些特别值得深度学习研究关注，包括（a）高级变量与自然语言之间的相当直接的联系，或者更一般地说，人类如何在彼此之间交流知识，即我们可以在很大程度上将我们的想法转化为语言，这可以提供关于潜在归纳偏差的丰富见解，例如：（b）将知识模块化分解为独立的、可重用的部分，这些部分可以即时组合起来解决新的上下文，（c）对代理的行为和分布变化的因果解释，代理通常打算影响单个或很少的（通常是潜在的）变量，以及（d）高级变量之间依赖关系的稀疏性（因此，由人类想象出来的因果机制所连接的变量数量很少，以解释他们的环境）。最后，我们还想提到，归纳偏差并不是弥合与人类高级认知之间差距的唯一方法：我们可以通过改进优化算法、扩大神经网络规模（Sutton，2019）以及转向更好地捕捉世界不确定性的其他框架（例如，通过学习神经网络模型的贝叶斯后验，而不是学习点估计）来获益。思考如何将所有这些不同的元素结合在一起也是很有趣的。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-13，如有侵权请联系 cloudcommunity@tencent.com 删除

系统