前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >朱松纯团队2019:RAVEN ; and I-RAVEN

朱松纯团队2019:RAVEN ; and I-RAVEN

作者头像
CreateAMind
发布2024-06-21 08:29:19
640
发布2024-06-21 08:29:19
举报
文章被收录于专栏:CreateAMindCreateAMind

Examples

第二部分:

Stratified Rule-Aware Network for Abstract Visual Reasoning

用于抽象视觉推理的分层规则感知网络

https://arxiv.org/abs/2002.06838

摘要

抽象推理是指分析信息、发现无形规律、创新解决问题的能力。Raven 的渐进矩阵 (RPM) 测试通常用于检查抽象推理的能力。 要求受试者从答案集中找出正确的选择,以填充 RPM 右下角缺失的面板(例如 3 × 3 矩阵),遵循矩阵内的基本规则。 最近的研究利用卷积神经网络 (CNN),在完成 RPM 测试方面取得了令人鼓舞的进展。然而,他们部分忽略了 RPM 求解器必要的归纳偏差,例如每行/列内的顺序敏感性和增量规则归纳。 为了解决这个问题,在本文中,我们提出了一种分层规则感知网络(SRAN)来生成两个输入序列的规则嵌入。 我们的 SRAN 学习不同级别的多粒度规则嵌入,并通过门控融合模块增量集成分层嵌入流。 在嵌入的帮助下,应用规则相似性度量来保证 SRAN 不仅可以使用元组损失进行训练,而且可以有效地推断出最佳答案。 我们进一步指出流行的用于 RPM 测试的 RAVEN 数据集存在严重缺陷,阻碍了对抽象推理能力的公平评估。 为了修复这些缺陷,我们提出了一种称为属性二分树(ABT)的答案集生成算法,形成了一个名为Impartial-RAVEN(简称I-RAVEN)的改进数据集。 在 PGM 和 I-RAVEN 数据集上进行了大量实验,表明我们的 SRAN 远远优于最先进的模型

介绍

抽象推理又称归纳推理,是指分析信息、发现无形层面的规律、创新地解决问题的能力。这种推理作为人类智能的基础,帮助人类认识世界。 在过去的几十年里,它被普遍认为和追求为人工智能发展的关键组成部分,并且近年来引起了越来越多的关注。Raven 渐进矩阵 (RPM) 测试(Raven 1938;Carpenter、Just 和 Shell 1990;Raven 2000;Kunda、McGregor 和 Goel 2013;Strannegård、Cirillo 和 Ström 2013)是被高度接受和充分研究的工具之一。检查抽象推理的能力,这被认为是对真实智力的良好估计(Carpenter、Just 和 Shell 1990)。

RPM 的图示如图 1 所示,其中通常向考生呈现一个 3 × 3 矩阵,右下面板留空。目标是从八个候选答案集中选择一张图像来正确完成矩阵,即满足矩阵中的基本规则。 受试者通过查看前两行/列并归纳控制这些面板中的属性的主导规则来实现这一点。然后可以将获得的规则应用于最后一行/列,以找出哪个答案属于空白面板。

认知科学界中的 RPM 计算模型访问图像的符号表示(Carpenter、Just 和 Shell 1990;Lovett 和 Forbus 2017;Lovett、Forbus 和 Usher 2010;Lovett 等人 2010)。最近,尝试在 RPM 测试上完成抽象推理的端到端学习方法取得了一些成功(Hoshen 和 Werman 2017;Barrett 等人 2018;Steenbrugge 等人 2018;Zhang 等人 2019a, b;Zheng, Zha 和 Wei 2019;van Steenkiste 等人 2019;Wang、Jamnik 和 Lio 2020),受到计算机视觉任务进展的启发(Krizhevsky、Sutskever 和 Hinton 2012;Simonyan 和 Zisserman 2015;Szegedy 等人 2015;He 等人,2016),并受到大规模 PGM(Barrett 等人,2018)和 RAVEN(Zhang 等人,2019a)数据集的推动。典型的作品包括 CoPINet (Zhang et al. 2019a)、LEN (Zheng, Zha, and Wei 2019) 和 MXGNet (Wang, Jamnik, and Lio 2020) 遵循的范例是基于以下条件预测每个多项选择面板的分类分数:每行/列内部的关系,显示出解决 RPM 测试的巨大潜力。然而,这些模型部分忽略了 RPM 的重要特征,例如排列不变性(Zhang et al. 2019b)、行/列内面板的顺序敏感性等。之前的工作(Wang、Jamnik 和 Lio 2020)特别提到他们没有选择排列不变结构,因为它会导致 RAVEN 数据集上严重的“过度拟合”。我们将在后面的章节中讨论这种现象。 更糟糕的是,直接提取关系,而不考虑人类认知系统中广泛采用的增量规则归纳机制(Carpenter,Just和Shell 1990),不可避免地会导致性能较差。

为了实现可靠且高效的抽象推理,在本文中,我们开发了一种名为分层规则感知网络(SRAN)的强大架构,它自然地集成了不可或缺的归纳偏差,包括顺序敏感性、排列不变性和增量规则归纳。 SRAN以两行/列作为输入,学习不同级别的分层规则嵌入,即单元级、个体级和生态层次。 这些多粒度嵌入通过门融合模块逐步集成,这自然地保留了面板的顺序敏感性并将输入映射到规则嵌入空间。 在嵌入的帮助下,我们进一步引入了规则相似性度量,基于该度量,SRAN 不仅可以使用元组损失来很好地训练,而且可以有效地推断出最佳答案。该框架类似于图 1 中所示的 RPM 人类策略。

为了公平地评估抽象推理能力,我们还设计了一种名为属性二分树(ABT)的通用算法,为任何基于属性的 RPM 问题生成公正的答案集。我们指出并进一步修复了常用的 RAVEN (Zhang et al. 2019a) 数据集的潜在缺陷,即使不存在上下文矩阵也可以推断出正确的答案。因此,我们引入了一个名为 Impartial-RAVEN (I-RAVEN) 的改进数据集来公平地评估 RPM 求解器的抽象推理能力。

据我们所知,所提出的 SRAN 是第一个引入具有区分性和可测量的规则嵌入的 RPM 求解器。 我们也是第一个指出并修复误导性基准RAVEN的缺陷,并基于我们的ABT算法生成公正的数据集I-RAVEN。 对广泛使用的数据集 PGM 和我们改进的 I-RAVEN 进行的大量实验表明,SRAN 远远优于最先进的方法,例如与 I-RAVEN 上第二好的 46.1% 的准确率相比,准确率达到 60.8%。

我们的方法

在本节中,我们首先给出 RPM 测试上的抽象推理任务的正式定义。然后我们介绍归纳偏置框架,并介绍我们的分层规则感知网络(SRAN)。 最后,我们演示了所提出模型的学习和推理过程。

初步的

对于常见的 RPM 问题,通常给出 3 × 3 矩阵 𝐌− ,右下角上下文面板留空。 Ω 表示带有 𝑁 多项选择面板的答案集,通常 𝑁 =8。控制矩阵内部特征的主导规则可以从前两个完整的行/列中得出。目标是选择一个多项选择面板 𝜔∈Ω 来完成上下文矩阵 𝐌− ,维持上下文矩阵内部的主导规则。

我们用多项选择面板 𝜔 定义完整的矩阵,填充为 𝐌 ,其中 𝐌𝑖 表示为 𝑖 行, 𝐦𝑖𝑗 表示第 𝑖 行 𝑗 列的面板。直观上, 𝐌 与 𝐌− 几乎相同,除了 𝐦33=𝜔 而 𝐌− 中缺少相应的元素。事实上,规则是否存在于行或列中是不确定的。因此,我们的框架以相同的方式引入行规则表示和列表示。 为了简化表示,我们仅以行式规则表示的归纳为例。

推理框架

基于 RPM 必要的归纳偏差,我们开发了一种新颖的抽象推理架构,名为分层规则感知网络(SRAN)。给定两个输入行 𝐌𝑖,𝐌𝑗 ,所提出的框架使用分层规则嵌入模块 𝔼 将输入嵌入到多粒度嵌入中。 𝔼 以生物组织命名(Parent 1996),由三个层次结构组成,包括细胞网络 𝔼cell 、个体网络 𝔼ind 和生态网络 𝔼eco 。通过多粒度规则嵌入,门控嵌入融合模块 𝔾 将逐步集成这些分层嵌入流,并将两个输入序列 𝐌𝑖 和 𝐌𝑗 映射到判别序列规则嵌入 𝐫𝑖𝑗(3) ,同时保持顺序敏感性和排列不变性。我们进一步引入规则相似度度量 𝒟 来估计规则表示之间的相似度。可以通过选择距矩阵前两行生成的主导规则最短距离内的多项选择面板来预测正确答案。

分层规则嵌入

众所周知,将行为组织成嵌套的任务层次结构是人类目的性认知的特征。 流行的卷积神经网络受到人类视觉系统的启发,本身就是一个分层模型,每一层的投影都显示出特征的分层性质。 底层提取低级特征,例如纹理、边缘等,而顶层从底层传输的低级信息中抽象出高级语义信息。

然而,如果不指定不同级别的信息,CNN 就很难找出不同的层次结构,从而无法获得鲁棒且有区分性的表示。 因此,最好明确地提供不同层次结构的输入,并在人工指导下从不同粒度提取规则表示。 受此启发,我们部署了分层规则嵌入模块,由细胞层次结构、个体层次结构和生态层次结构组成。

单元级层次结构

单元层次结构的网络 𝔼cell 将每个面板作为输入并识别内部图形元素的属性。它独立处理每个面板,而不考虑矩阵内面板之间的差异或相关性。因此,它是从最细致的角度来观察信息的。 我们获得每个输入面板的单元格规则表示:

个人层次结构

此外,各个层次的网络将每一行作为输入。它开始考虑同一行面板之间的相关性,并用紧凑的嵌入对整行进行编码,而不是简单地组合每个面板。 这样,每个面板的规则嵌入过程是耦合并相互作用的。直观上,每一行可能包含多个看似合理的规则。 在这个层次结构中,框架单独提取每一行的中间规则嵌入,这仍然忽略了矩阵角度的综合信息,特别是行间的相关性。嵌入 𝐲𝑖 的个体规则表示为:

生态等级

此外,生态层次网络将两行一起作为输入,共同学习两行背后的规则模式。 正如我们之前提到的,在单独的层次结构中,框架为每一行提取中间规则嵌入,而不考虑两行之间的交互。一行中存在的规则可能不存在于另一行中。 因此,为了获得两行之间的共享规则模式,有必要将这两行放在一起并从生态层面共同学习特征。由此得到共享规则嵌入如下:

其中 [⋅,⋅] 表示连接操作。

门控嵌入融合

由于不同级别的规则嵌入关注不同的属性或模式,为了生成规则的一种判别性表示,我们应该聚合多个粒度的嵌入。 由于聚合应保留单元级规则嵌入的顺序并对个体级规则嵌入具有排列不变性的要求,我们提出了一种名为门控嵌入融合模块的分层规则嵌入学习方法,该方法负责逐步聚合多粒度嵌入。

具体来说,我们定义一个门函数 𝜑 来融合来自不同层次结构的规则嵌入。它将所有输入连接起来并使用完全连接的层编码为单个嵌入。 门函数类似于注意力机制,根据任务检测并集中于有用的特征。即使对于相同的属性,他们也可能关注不同的方面。 基于门函数,我们的门控嵌入融合模块可以调节规则嵌入到框架中的流程,并充分利用它们的互补信息。

在单元格级别,在获得 𝑖 行 𝐌𝑖 中面板的单元格规则嵌入后,模块将它们聚合以推断行规则嵌入 𝐫𝑖(1)

同样,我们获得第 𝑗 行 𝐌𝑗 的 𝐫𝑗(1) 。融合嵌入在面板中集成了不同类型的属性。

在个体层面,直观上 𝐫𝑖(1) 和 𝐲𝑖 都是对应于第 𝑖 行的逐行嵌入,但传达了不同粒度的规则信息。我们进一步融合它们,并共同挖掘第 𝑖 和 𝑗 行中包含的共享规则:

在生态层面,同样我们可以利用门融合函数进一步组合融合嵌入 𝐫𝑖𝑗(2) 和 𝐳𝑖𝑗 ,抽象出最终的规则嵌入:

为了确保框架对于输入行是排列不变的,我们交换两个输入行的串联顺序并对输出规则嵌入进行平均。 这种不变性确保规则嵌入尊重 RPM 的特性,从而提取输入中存在的关系的代表性信息。

总的来说,SRAN 可以用最简单的形式表示如下:

学习与推理

有了SRAN框架,问题就变成了我们如何训练网络,并应用它来推断RPM测试的正确答案。解决这个问题的关键在于两个规则嵌入之间的相似性度量,基于此我们可以定义SRAN训练的损失函数,同时确定推理时的最佳选择。

相似度函数

我们引入相似度函数 𝒟 来衡量嵌入空间中两个规则之间的接近程度。在本文中,我们采用内积相似度以获得良好的实验结果:

训练

对于给定的 RPM 问题,前两行 𝐌1,𝐌2 被输入到我们提出的 SRAN 中并生成共享规则嵌入 𝐠 :

它代表矩阵的主导模式。

直观上,从前两行提取的规则可以视为参考规则,我们将其命名为矩阵中的主导规则。随后,通过检查其对应的规则嵌入是否与主导规则相似来找到正确答案。 具体来说,给定一个多项选择面板 𝜔𝑘∈Ω ,其中 𝑘∈{1,…,𝑁} ,我们将 𝐫¯𝑘 表示为嵌入 𝐌 内的新规则,这是由 𝑘 -第多项选择面板:

这个过程如图 3 所示。在实践中,我们生成按列规则表示,就像按行规则表示一样,并将这两个表示连接在一起作为最终表示。

对于由填充正确答案的行/列生成的规则嵌入 𝐫¯∗ ,与其他规则 𝐫¯𝑘 对应于错误答案,其中 𝐫¯𝑘≠𝐫¯∗ 。随后,生成的 𝑁 候选规则与主导规则一起形成包含 𝑁 +1 个元素的元组。基于相似度函数,可以为 SRAN 训练定义 ( 𝑁 +1)-tuplet loss (Sohn 2016):

这意味着SRAN可以以完全端到端的方式进行训练。SRAN 的架构(图 2)非常适合抽象推理问题,因为它利用人类策略并显式生成管理矩阵的规则。

推理

一旦SRAN的训练完成,我们就可以对新给出的RPM问题进行推断。最初,RPM 的完整行/列被输入到框架中以获得主导规则 𝐠 。之后,每个多项选择面板都被填充到空白位置以完成矩阵,并且框架将为所有候选答案生成规则嵌入 𝐫¯𝑘 ,给定当前完成的矩阵。我们可以通过选择正确的多项选择来完成抽象推理,如下所示:

请注意,由于我们独立调查每个面板,因此上述推理过程保证,如果答案集被打乱,我们的模型的输出将保持不变。

公正数据集的属性二分树

RAVEN(Zhang et al. 2019a)是最近所有研究都采用的流行的 RPM 式数据集(Zhang et al. 2019b;Zheng、Zha 和 Wei 2019;Wang、Jamnik 和 Lio 2020)。然而,我们发现其答案集存在严重缺陷,使得 RAVEN 无法胜任抽象推理的测量。在本节中,我们首先对RAVEN进行简要回顾,然后通过分析和实验来解释其缺陷。 最后,我们介绍了一种通用算法,可以为任何基于属性的 RPM 问题生成公正的答案集。因此我们修复了 RAVEN 的缺陷并提出了一个改进的数据集。

RAVEN的缺陷

RAVEN 数据集包含 70,000 个 RPM 问题,分布在 7 种不同的图形配置中。面板由 5 个属性( NumberPositionTypeSizeColor )构建。每个属性均受 4 条规则之一控制,并从预定义集中获取值。在 RAVEN 中,规则仅按行应用。

仔细检查 RAVEN 中的数据后,我们在八个多项选择面板中发现了意想不到的模式。答案集中的每个干扰项都是通过随机修改正确答案的一个属性来生成的(见图 4(a))。因此,每个属性具有最常见值的面板将是正确的答案。这意味着只需扫描答案集即可找到正确答案,而无需考虑上下文图像。图 4(a) 右侧还显示了一个示例。在答案集中,最常见的 ColorType 是黑色(1、3、4、5 和 7)和五边形(1、2、3、4、6、和 8)。此外,多项选择面板 1、2、5、6、7 和 8 位于同一个 Size 中。因此,即使不考虑上下文矩阵,多项选择面板 1(具有最常见属性值的面板)也被推断为(并且确实是)正确答案。

请注意,理解上下文矩阵是 RPM 测试的基石。RAVEN数据集在没有上下文的情况下就能找到正确答案,显然违背了抽象推理的本质,因此无法评估抽象推理能力。

更严重的是,这种潜在的模式也可以被神经网络捕获,特别是对于结合了八个多项选择面板的特征的模型。我们使用上下文盲(Barrett et al. 2018)设置训练两个模型,包括一个简单的基于 ResNet 的分类器(Zhang et al. 2019a)和竞争性 CoPINet(Zhang et al. 2019b)。这些上下文盲模型仅使用八个多项选择面板作为输入进行训练,并且如果数据集符合逻辑,则应该随机预测答案。然而,如表 1 所示,上下文盲模型可以实现比正常模型更好的性能,这证明 RAVEN 包含不合逻辑的模式,仅在给出答案集时才能找到正确答案。 这种类型的后门解决方案非常隐蔽,并且也在其他关系推理基准测试中进行了讨论,例如视觉问答(VQA)(Johnson et al. 2017)和符号类比(Hill et al. 2019)。我们可以得出结论,(Wang、Jamnik 和 Lio 2020)报告的 RAVEN 上的“过度拟合”现象不是由排列不变结构引起的,而是由数据集本身引起的。

属性二分树

我们设计了一种名为属性二分树 (ABT) 的通用算法,为任何基于属性的 RPM 问题生成公正的答案集。ABT 确保答案集中的属性修改得到很好的平衡。 因此,仅根据答案集无法找到线索来猜测正确答案,并且在不从上下文矩阵进行推理的情况下也无法消除干扰。

图4(b)展示了使用树结构的生成过程。每个节点表示一个多项选择面板,树结构的根是正确答案。 不同的级别表示不同的迭代,该级别的节点是当前答案集中的候选答案。生成过程以自上而下的方式进行。对于每次迭代,只会修改一个属性。

在每一层,一个节点有两个子节点,其中一个节点与父节点保持相同,另一个节点改变父节点本次迭代采样的属性值。最后,在底层,我们可以获得整个答案集。算法 1 总结了答案生成过程的关键步骤。

I-RAVEN

通过 ABT,我们为 RAVEN 数据集中的每个 RPM 问题生成一个替代答案集,形成一个名为 Impartial-RAVEN (I-RAVEN) 的改进数据集。接下来我们将证明,与RAVEN相比,I-RAVEN在评估抽象推理能力方面更加严格和公平。

以图4(b)为例,每个属性都有两个不同的值,它们均匀地分布在答案集中。一半答案候选(1、2、4和7)的属性 Color 是黑色的,而另一半(3、5、6和8)是浅灰色的。类似地,一半答案候选(1、2、6和8)的属性 Type 是五边形,而另一半(3、4、5和7)是圆形。答案集的一半(1、3、4 和 6)大小相同,与另一半(2、5、7 和 8)大小相同。因此,不存在每个属性具有最常见值的候选者。也就是说,RAVEN上的后门方案无法再应用于新的答案集。

为了更好地解释 I-RAVEN 相对于 RAVEN 的优越性,如图 5 所示,我们使用无向图分别表征两个数据集的典型答案集,其中每个候选答案由一个填充其度数的节点表示。两个节点之间的边表示对应的候选节点在一个属性上不同。在图5(a)中,总有一个中心节点的度数为7,而其他节点的度数较小。后门的解决方案是找到中心节点,这确实是正确答案。相比之下,在图5(b)中,由于属性的平衡修改,每个节点始终具有相同的度3,在没有上下文矩阵的情况下彼此无法区分。此外,受(Hill et al. 2019)的启发,我们使每个干扰因素的噪声属性均匀性与正确答案保持一致,以便每个干扰因素在感知上是合理的,并且不能简单地通过属性不匹配来消除。此设置鼓励模型根据上下文进行推理。

实验

实验装置

使用 I-RAVEN,我们首先将我们的方法与使用公共实现的几种最先进的模型进行比较,包括 LSTM(Hochreiter 和 Schmidhuber 1997)、基于 ResNet(He 等人 2016)的图像分类器(ResNet)、ResNet与 DRT(Zhang 等人,2019a)、Wild ResNet(Barrett 等人,2018)、WReN(Barrett 等人,2018)、CoPINet(Zhang 等人,2019b)和 LEN(Zheng、Zha 和 Wei,2019)。我们采用了(Zhang et al. 2019a)中的 LSTM、ResNet 和 DRT 的公共实现。本节不包含 LEN 的其他变体,因为它们需要额外的训练标签。

PGM(Barrett et al. 2018)是另一个由 142 万个问题组成的 RPM 数据集。矩阵中的规则由 1 到 4 个关系-对象-属性元组组成,可以沿行或列应用。将 SRAN 与 PGM 结果进行了比较(Barrett 等人,2018 年;Zhang 等人,2019b;Zheng、Zha 和 Wei,2019 年;Wang、Jamnik 和 Lio,2020 年)。

对于我们的 SRAN,我们通过修改输入通道,采用三个 ResNet-18(He et al. 2016)作为三个层次结构的嵌入网络。门融合 𝜑1 和 𝜑2 是2层全连接网络,而 𝜑3 是带有dropout的4层全连接网络(Srivastava et al. 2014) )0.5应用于最后一层。我们采用使用 ADAM(Kingma 和 Ba 2014)优化器的随机梯度下降。指数衰减率参数为 𝛽1=0.9 、 𝛽2=0.999 、 𝜖=10−8 。每个报告的准确度是 5 次运行的平均值。

与最先进方法的比较

表2和表3分别列出了在I-RAVEN和PGM上训练的不同模型的测试精度。从表中可以明显看出,我们提出的 SRAN 明显优于其他方法。 此外,我们观察到模型受益于归纳偏差,例如竞争性 CoPINet、LEN、Wild ResNet 和我们的 SRAN。这种归纳偏差(甚至部分)可以鼓励模型探索潜在规则。为了进行更详细的比较,表 2 还报告了 I-RAVEN 七位数配置的精度。我们可以观察到,不同配置的准确度并不统一,这可能是由于配置的难度造成的。 但与其他模型相比,我们的 SRAN 在所有配置上始终达到最佳性能,这证明我们的模型即使面对不同的条件和复杂的规则也可以稳定工作。

我们观察到 SRAN 在 I-RAVEN 上的准确度与原始 RAVEN 数据集上的准确度非常接近(60.8% vs. 60.7%)。这种现象符合预期,因为我们的方法主要关注上下文中的规则,因此对答案集具有鲁棒性。

消融研究

如上所述,我们的方法主要受益于归纳偏置架构。为了验证这一点,我们研究了 SRAN 中不同组件的影响。表 4 列出了结果。

我们使用不同层次结构选择的性能来分析分层策略以增量地归纳规则。具体来说,我们将特定层次结构的规则嵌入设置为门函数 𝜑 之前的零向量。因此,门函数调节进入门控嵌入融合模块的特征流。我们观察到,组合更多的层次结构总是会带来 I-RAVEN 上更好的性能,这表明所有层次结构都对我们的框架做出了贡献。我们通过对所有单元嵌入进行求和来使 𝔼cell 无序,并观察到性能大幅下降。这些观察结果证明了所提出的顺序敏感性归纳偏差和增量规则归纳的有效性。

我们进一步发现我们模型的有效性可以归因于它对不同属性的关注。我们仅利用 𝔼cell,𝔼ind,𝔼eco 中的单层次规则嵌入进行实验,涉及三个属性( TypeSizeColor ) I-RAVEN 的。如图 6 所示, 𝔼cell 具有很强的推断属性 TypeSize 的能力,但很难区分属性 Color 。相比之下, 𝔼ind 和 𝔼eco 具有适度的推断属性 TypeSize 的能力,并且对于属性 Color 非常有效。b12> .

规则嵌入的优点

在真实的RPM测试中,并不清楚该规则是存在于行中还是列中。因此,检查所提出的模型是否能够在没有任何指导的情况下发现知识非常重要。 鉴于规则仅按行应用的先验知识,在 I-RAVEN 上训练时通常会忽略列的规则归纳。 为了测试区分规则是沿行还是沿列应用的能力,我们在 I-RAVEN 上训练了一个 SRAN 模型,其中重新集成了列规则的归纳。 结果,准确率仅略有下降(从 60.8% 降至 59.6%)。这表明我们的模型可以忽略列本身带来的干扰。

结论

在本文中,我们引入了抽象视觉推理任务所需的归纳偏差,例如顺序敏感性和增量规则归纳。 我们进一步提出了一种新颖的分层规则感知网络,它可以提取不同级别的多粒度规则嵌入,并通过门控嵌入融合模块将它们集成。 基于嵌入,进一步引入了规则相似度度量,使得SRAN不仅可以使用元组损失进行训练,还可以根据相似度得分推断最佳答案。 我们还设计了一种名为属性二分树的算法来修复流行数据集RAVEN的缺陷,并基于该算法生成更严格的数据集。 在 PGM 数据集和我们改进的数据集 I-RAVEN 上进行的大量实验证明,我们提出的框架可以显着优于其他最先进的方法。 此外,我们研究了我们提出的模型的每个组件的效果,并评估了我们的诱导规则嵌入的优势。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 用于抽象视觉推理的分层规则感知网络
    • 介绍
      • 我们的方法
        • 初步的
        • 推理框架
        • 分层规则嵌入
        • 门控嵌入融合
        • 学习与推理
      • 公正数据集的属性二分树
        • RAVEN的缺陷
        • 属性二分树
        • I-RAVEN
      • 实验
        • 实验装置
        • 与最先进方法的比较
        • 消融研究
        • 规则嵌入的优点
      • 结论
      相关产品与服务
      腾讯云服务器利旧
      云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档