前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Object-Centric:Faster Attend-Infer-Repeat 2019,场景理解建模思路2

Object-Centric:Faster Attend-Infer-Repeat 2019,场景理解建模思路2

作者头像
CreateAMind
发布2024-06-04 15:30:45
890
发布2024-06-04 15:30:45
举报
文章被收录于专栏:CreateAMindCreateAMind

Faster Attend-Infer-Repeat with Tractable Probabilistic Models利用易处理的概率模型加快注意-推断-重复 http://proceedings.mlr.press/v97/stelzner19a/stelzner19a.pdf

3个改进,速度上只提升了一个数量级

Sum-Product Attend-Infer-Repeat (SuPAIR)

摘要

最近的Attend-Infer-Repeat (AIR)框架在结构化概率建模方面树立了一个里程碑,因为它通过贝叶斯推理解决了无监督场景理解的挑战性问题。AIR从单个对象表达视觉场景的组合,并使用变分自编码器来模拟这些对象的外观。然而,整体模型中的推理高度复杂,这阻碍了其学习速度,并使其容易陷入次优解。在本文中,我们展示了通过用可处理的概率模型替换复杂的对象表示,可以显著提高AIR中学习的速率和鲁棒性。特别是,我们选择使用求和-乘积网络(SPNs),这是具有丰富可处理推理程序的表达性强的概率模型。所得的模型,称为SuPAIR,比AIR学习速度快一个数量级,以一致的方式处理对象遮挡,并允许包含背景噪声模型,提高了贝叶斯场景理解的鲁棒性。

1. 引言

从具有固有结构的数据中派生有意义的表示是机器学习和人工智能中的关键问题。解决这个问题的一个自然方法是生成建模,它假设了一个潜在的数据生成过程,并根据数据对这个过程进行推理。

例如,在视觉领域,由于其自然吸引力,“视觉作为逆图形”的理念有着特别长的历史(Grenander,1976)。不幸的是,它因为图形渲染过程的后验高度复杂而受到影响。

最近,深度神经生成模型,如变分自编码器(VAEs)(Kingma & Welling,2014)和生成对抗网络(GANs)(Goodfellow等人,2014)在生成图像建模方面取得了显著的成功。然而,由于它们的基本变体提供了相当无结构的潜在表示,因此已经提出了几种基于VAEs的结构化潜在变量模型。特别值得注意的模型是Attend-Infer-Repeat(AIR)(Eslami等人,2016),它将VAEs作为对象模型纳入场景生成过程,并学习一个循环神经网络(RNN)以动态检测组成场景的多个对象。其他结构化模型的例子是(Johnson等人,2016),它将VAEs整合到潜在切换线性动态系统中,以从鼠标深度视频中推断行为模式,以及SketchRNN(Ha & Eck,2018),它使用RNN从给定的草图中推断笔的轨迹。

这些模型都不需要以观察到的潜在表示形式的监督。相反,这些表示的性质是通过模型结构来指定的。为此,结构被赋予了可用的先验知识,例如对象交互的规则、笔触渲染或生物行为的马尔可夫假设。对象的外观或典型的笔迹轨迹等其他部分则需要学习。精确推理几乎总是不可行的,要么是因为全局模型结构本身已经不可行,要么是因为使用了不可行的组件,如VAEs。

近期在变分推断方面的进展,见例如(Zhang等人,2017)的概述,已经在这些高度不可行的模型中取得了令人印象深刻的成果。这些进展中的一些关键促成因素是推理网络和摊销(Gershman & Goodman,2014;Kingma & Welling,2014)、重参数化技巧(Kingma & Welling,2014;Titsias & Gredilla-L´azaro,2014;Schulman等人,2015)以及降低梯度估计中方差的技术(Mnih & Gregor,2014)。尽管取得了这些改进,然而,在这种大规模结构化模型中的推理远未解决,导致学习缓慢或推理结果次优,例如在变分目标中的局部最优差。

在本文中,我们展示了通过将这些系统中的复杂组件替换为富有表现力的可处理概率模型,可以有效地缓解这些问题。

在这里,我们专注于AIR模型,但我们的见解具有普遍性,并且可以轻松地应用到其他结构化模型中。特别是,我们提出了AIR的改进版本,它使用求和-乘积网络(SPNs)(Darwiche,2003;Poon & Domingos,2011)作为对象模型,而不是VAEs。SPNs是一类丰富的分层潜在变量模型(Zhao等人,2015;Peharz等人,2017),已经成功应用于图像识别(Gens & Domingos,2012)、语言建模(Cheng等人,2014)、语音处理(Peharz等人,2014)和机器人技术(Zheng等人,2018)等任务。

与其他深度概率模型相比,SPNs具有一个关键优势:任何边际概率都可以在简单的前向传递中高效且准确地计算。边际的可用性在我们的模型变分下界推导中起着关键作用——被称为求和-乘积Attend-Infer-Repeat(SuPAIR),并允许我们稳健地处理嘈杂的背景并以原则性的方式处理对象遮挡。

用SPNs替换复杂的VAEs大大减少了推理工作量。特别是,我们的推理网络不需要预测潜在的对象代码,也不需要对象重建——相反,我们能够直接为提出的场景描述分配校准良好的可能性得分。这种方法可以被理解为Rao-Blackwellization的一种形式,并且显著降低了变分目标梯度估计的方差。

正如我们的实验所示,SuPAIR在训练时间上显著减少,并且与原始AIR系统相比,鲁棒性得到了提高。我们的代码可以在线获取。

我们继续讨论相关工作,并回顾AIR和SPN所需的背景知识。基于此,我们介绍SuPAIR模型并为其推导学习目标。在结束之前,我们展示了我们的实验评估。

2. 相关工作和背景

让我们先讨论相关工作,并介绍SuPAIR所需的背景知识。

2.1. Attend-Infer-Repeat (AIR)

Object-Centric:Attend, Infer, Repeat 2016,场景理解建模思路1

与之前的工作不同,例如 (Lempitsky & Zisserman, 2010),Attend-Infer-Repeat (AIR) 框架以一种无监督的方式,使用贝叶斯方法来处理对象计数和场景理解问题。具体来说,假设给定的场景(图像)x是根据某个生成过程 p(x, z) = p(x | z) p(z) 生成的。这里,z表示带有先验 p(z) 的潜在场景描述,p(x | z) 代表生成模型的场景合成过程(场景渲染)。在这个框架中,场景分析被转化为标准的贝叶斯推理,即我们在场景 x上进行条件化并推断后验 p(z | x) ∝ p(x | z) p(z)。后验可能通过 MAP 解决方案 arg maxz p(z | x) 用于派生单个场景描述,或者整个后验可能被纳入下游决策过程中。将计算机视觉解释为逆图形有着悠久的传统 (Grenander, 1976),但这却是一个出了名的难以推断的问题。

虽然一般的贝叶斯场景理解很难,但通过利用变分推断的最新进展,已经取得了显著的进步。为此,Eslami等人(2016年)引入了以下假设。场景描述符z组织成N个块,即z = (z1, ..., zN),对应于场景中的N个物体。每个块zi = (zi where, zi what)包含对其各自物体的描述,其中zi where包含姿态参数(平移和缩放),zi what描述物体的外观(物体类别、纹理等)。由于场景中物体的数量是变化的,N也是一个随机变量,取值在零和某个Nmax之间。

假设物体之间及描述符组件之间先验独立,则整个场景描述z的先验形式为p(z) = p(N) ∏N i=1 p(zi where) p(zi what)。物体数量N可以通过例如分类分布或(截断的)几何分布来简单建模。姿态参数zi where的分布也可以采用简单的形式,例如在适当范围内的均匀分布。然而,为了描述物体的外观,需要一个更具表现力的模型。Eslami等人(2016年)采用的方法是利用变分自编码器(VAE)(Kingma & Welling,2014),将高斯分布的zi what作为其潜在编码。zi what由神经网络处理,生成物体草图yi,即单个物体的视觉外观。每个yi然后由其对应的姿态参数zi where进行变换,并插入到一个私有画布中,记为y˜i。最后,场景x的像素均值由所有在场景中存在的y˜i(即i ≤ N)之和生成。最终,x的分布由具有这些均值和固定方差的各向同性高斯分布给出。

AIR中的推理是通过最近的变分推断技术来解决的。首先,它通过使用一个推理网络来近似后验p(z | x),从而实现了摊销(Gershman & Goodman, 2014; Kingma & Welling, 2014)。遵循模型的组合结构,一个循环神经网络(RNN)被用作推理网络,每一步都输出一个变分分布q(ziwhere, ziwhat, zipres),该分布基于输入x和先前推断出的对象描述符。

在这里,二元变量zipres在每个推理步骤中指示第i个对象是否存在,或者是否所有对象都已被找到,推理过程应该终止。这有效地将q(N)参数化为一系列是/否决策,使得...(文本在此处截断,未提供完整的句子)。

模型和推理参数是通过随机优化证据下界(ELBO)(Hoffman等人,2013)来学习的。为了得到ELBO的梯度估计,可能的情况下采用了重参数化技巧(Kingma & Welling,2014;Titsias & Gredilla-L´azaro,2014)。对于离散变量,特别是对于zipres,使用了带有方差减少技术的得分估计器(Mnih & Gregor,2014;Schulman等人,2015)。

尽管Eslami等人(2016)提供了令人印象深刻的结果,AIR中的学习与推理——以及其他结构化概率模型——远未解决。一个问题是生成模型和推理网络之间复杂的相互作用,这经常导致生成模型适应了一个过于弱的推理网络(Cremer等人,2018)。另一方面,有些自相矛盾的是,试图提高变分近似的质量也可能对学习有害(Rainforth等人,2018)。

在本文中,我们认为这些问题可以通过转向具有显著简化推理的模型来缓解。特别是,我们建议用可处理的模型替换最复杂部分——对象VAEs——放弃推断代表对象的高维潜在代码的必要性。为此,我们提议使用既可处理又富有表现力的模型,如SPNs(Darwiche,2003;Poon & Domingos,2011),接下来将介绍这些模型。

2.2 求和-乘积网络(SPNs)

设 x = (x1, ..., xD) 表示一个随机向量。求和-乘积网络(SPN)是通过一个无环有向图定义的,包含叶子分布、求和节点和乘积节点。SPN的每个叶子都是x的某个子向量y上的分布函数。叶子是某个子向量y上的分布,该子向量y被称为叶子的作用域。对于内部节点,我们递归地定义作用域为子节点作用域的并集。内部节点要么是混合节点(求和节点),即它们计算其子节点的凸组合,要么是分解分布(乘积节点),即它们计算其子节点的乘积。SPN需要满足两个结构要求(Poon & Domingos,2011),即完备性(即对于每个求和,所有子节点具有相同的作用域)和可分解性(即对于每个乘积,其子节点的作用域不重叠)。通过归纳可以得出,SPN中的每个节点都计算其作用域上的正确分布函数。我们假设SPN有一个单一的根,其作用域为x,代表我们对x的模型分布。

SPNs的一个关键优势是它们可以计算整体分布的任何子边际。正如(Peharz等人,2015)所示,SPN中的边际化归结为叶子上的相应边际化任务,并且像平常一样评估SPN的其余部分,只需单次前向传递。当使用单维叶子时,这种边际化特别容易,因为在这种情况下,我们只需要将被边际化变量的叶子设置为1。

模型分布取决于SPN结构(图)和其参数(求和权重和小叶子分布的参数),这两者都是学习的对象。对于结构学习,已经提出了各种方法,例如基于领域知识的指定结构(Poon & Domingos, 2011)、自上而下的共聚类(Dennis & Ventura, 2012; Gens & Domingos, 2013; Rooshenas & Lowd, 2014; Vergari等人,2015; Molina等人,2018)和自下而上的贪婪学习(Peharz等人,2013)。参数可以通过梯度下降(Gens & Domingos, 2012)、期望最大化(Poon & Domingos, 2011; Peharz等人,2017)、凸-凹过程(Zhao等人,2016a)或贝叶斯方法(Zhao等人,2016b; Trapp等人,2017; Vergari等人,2019)来学习。最近,提出了随机张量化SPNs (RAT-SPNs) (Peharz等人,2018),它们使用随机过度参数化结构,省去了结构学习的必要性。

在AIR的设置中,我们事先不知道每个SPN将需要建模的数据集,这使得结构学习的应用变得复杂。为了证明我们的方法不依赖于领域知识指导SPN结构的选择,我们在提出的SuPAIR系统中使用RAT-SPNs。关于它们的结构细节,我们参考补充材料和Peharz等人(2018)。

3.求和-乘积参与-推断-重复

我们现在开发和积空气(SuPAIR)框架,遵循图1所示的生成模型。原始空气系统有三个主要区别:

1. 我们直接用SPN(Sum-Product Networks)对物体草图yi的分布进行建模。因此,我们在学习过程中不需要推断潜在的物体编码,而是有效地边缘化了潜在的SPN变量和yi,这可以看作是一种Rao-Blackwell化,加速了训练过程。

2. 我们引入了一个背景模型ybg,用于捕捉图像噪声并提高模型的鲁棒性。

3. 我们使用了一种替代的交互(场景渲染)模型,这与高效的SPN推理非常契合。

现在让我们详细设计SuPAIR模型,依次讨论先验、交互模型、如何边缘化物体和背景,以及最后如何执行变分推断。整体上,这形成了图2中所示的SuPAIR计算图。

3.1. 物体、背景和场景先验

SuPAIR模型生成一个大小为B × B的场景x。每个场景包含0 ≤ N ≤ Nmax个物体,其中N的先验被建模为截断几何分布。每个物体i具有潜在的姿态参数zi where,即表示物体边界框的坐标和大小的四元组。每个zi where的先验建模为具有适当界限的均匀分布。为了防止高度甚至完全遮挡的物体,我们添加了一个非标准化的惩罚项,该惩罚项建模为每个物体的遮挡率(即其像素在场景中被遮挡的比例)的Gamma分布。

物体i的视觉内容yi由RAT-SPN在一个A × A像素数组上生成。为了建模单个像素,我们在叶节点使用单变量高斯分布。在本文中,我们让物体共享SPN的参数,即所有物体具有相同的先验分布,记为yi ∼ pobj(·)。然而,物体也可以轻松配备私人SPN,且SPN还可以基于某些上下文(如类变量)进行条件化。虽然SuPAIR没有像AIR的zwhat那样明确包含潜在物体编码,但如果需要,这样的表示仍然可以通过Vergari等人(2018年)提出的程序从物体SPN中获得。此外,与AIR不同,我们假设一个与画布大小相同的背景模型ybg,即B × B,也由具有高斯叶节点的RAT-SPN表示。我们将此密度记为ybg ∼ pbg(·)。然后,根据交互(渲染)模型将背景和当前物体组合成一个场景,交互模型将在下一节中描述。

3.3 边缘化对象和背景

将所有内容整合在一起,我们得到了模型的联合分布,给出为

这对于学习非常有益,因为我们最终感兴趣的是场景描述 z 的后验分布,而不是潜在的场景组成部分 y。请注意,(4) 中的每个多维积分都可以写成一系列单维积分。

边缘化不存在的对象(即 i > N)是简单的,因为交互模型 (2) 不依赖于它们。因此,它们的外观 y_i 的积分可以与 (3) 中的乘积交换。由于它们的先验 p(y_i) 是归一化的,它们上的积分计算结果为 1,即它们有效地从乘积中被移除。

3.4 变分推断

我们通过优化证据下界(ELBO)同时学习SuPAIR模型和推理网络‍

如上所述,式(9)中的外部期望由随机变分推断和

的重参数化处理。对于N的期望被视为对可能的物体数量的求和。为了计算它,我们只需要对背景网络进行

次评估,以计算每个可能的遮挡掩码下的

。类似地,对于每个可能的物体,只需要对物体SPN进行一次评估,因为索引较高的物体位于索引较低的物体后面。因此,联合中与物体相关的项要么不包括(物体缺失),要么对每个n都相同。

4. 实验

在本节中,我们将SuPAIR与原始的AIR系统(Eslami等人,2016)进行比较,并探讨以下两个问题:(Q1)可行的外观模型是否会导致更快、更稳定的学习,即方差较小?(Q2)显式背景模型是否会使SuPAIR比AIR更能抵抗噪声?为此,我们在TensorFlow中实现了SuPAIR,利用了Peharz等人(2018)的RAT-SPN实现。我们还尝试了Poon和Domingos(2011)在图像领域提出的SPN结构,但并没有发现它在学习速度或准确性方面带来显著的改善。因此,我们报告了使用更普遍适用的随机结构获得的结果。所有实验都是在单个NVIDIA GeForce GTX 1080 Ti和一个AMD Ryzen Threadripper 1950X CPU上进行的。

由于Eslami等人(2016)的原始代码并未公开,我们使用了Pyro中充分记录的AIR实现(Bingham等人,2018)作为我们的基线,采用了作者推荐的超参数设置。

4.1. 基准数据集

我们在两个标准的AIR基准数据集上进行了实验,每个数据集都包含不同的物体集合:Multi-MNIST,使用MNIST数字作为物体,以及Sprites,一个使用人工生成的几何形状的数据集。在这两个数据集中,每个场景都是一个50 × 50的灰度图像,包含零个、一个或两个物体,它们的位置和大小根据均匀分布变化。具有过度重叠物体的场景将被丢弃。每个数据集的20%被保留作为测试集,以评估推理网络实现的计数准确性。

4.2. 超参数和归纳偏差

与AIR不同,我们的模型不会对背景始终为黑色做出硬性假设。因此,需要通过超参数提供一些归纳偏差给SuPAIR,表达什么应该和不应该被视为背景。如同对无监督模型普遍的做法,我们通过超参数来指定这种偏差。

由于我们期望背景比物体在视觉上更简单,因此我们使背景-SPN更浅更窄,给它更少的空间来建模依赖关系。反过来,我们为其高斯叶节点设置了方差的下限,使其能够在低方差数据上获得更高的似然分数,比如黑色背景。我们发现这是一种令人惊讶的微妙但有效的引导模型的方式。当然,也可以指定更强的偏差,例如通过约束高斯叶节点的均值甚至通过在手动标记的数据上预训练SPNs,但我们发现这并不是必要的,以达到良好的性能。SuPAIR中可学习参数的总数如表1所示,并且与AIR相比可比,主要差异在于缺少基线推理网络,这是我们选择枚举N的结果。

4.3. (Q1)物体计数

图4描述了在训练的各个阶段获得的推理结果,说明我们的模型学会了正确计数和定位物体。图5提供了在训练过程中获得的计数准确性的比较,突出了我们方法的主要优势:与原始AIR系统相比,使用MNIST进行训练的速度接近一个数量级的提升。我们发现,对于SuPAIR执行单个训练周期大约比AIR快40%,这很可能是因为缺少基线网络。这也表明,大部分总体加速可以归因于更快的统计收敛,而不是计算速度。给出的最终准确性和ELBO值如表2所示。我们注意到,我们观察到的AIR的收敛速度与文献报道的数字相比具有良好的可比性:Eslami等人(2016)表示他们在NVIDIA Quadro K4000上训练两天后达到收敛,而Bingham等人(2018)报告了在更强大的NVIDIA K80上约15分钟后达到收敛。在Sprites数据集上,SuPAIR的收敛速度甚至更快,不到一分钟就达到了超过95%的计数准确率。

4.4. (Q2)对噪声的鲁棒性

4.4. (Q2) 对噪声的鲁棒性

为了评估我们模型的鲁棒性,我们还让它在两个变体的Multi-MNIST数据集上进行了训练,每个变体具有不同类型的背景,一种类似于纯噪声,另一种是结构化背景。在第一种情况下,我们简单地向整个场景添加高斯噪声。在第二种情况下,我们通过从随机选择的偏移开始,将每五行和五列的像素涂成灰色来生成一个规则网格。然后,将MNIST数字叠加在上面。

图6展示了SuPAIR和AIR在这些数据集上训练后的推理结果。我们的模型仍然能够定位数字,尽管计数准确度略有下降,大约为90%。图5中报告的消融测试结果表明,背景模型确实对此至关重要。另一方面,AIR在这种设置中失败了:不足为奇的是,由于缺乏背景模型,它被迫至少要将一个对象分配到整个图像中,以试图重建背景。然而,更为严重的是,AIR的变分自编码器未能正确捕获对象的分布。它的重建仅在检测到的对象位置渲染出一个模糊的污迹。这种效应显著降低了RNN的训练信号,因此它未能准确检测和定位数字。

5. 结论

像AIR这样的结构化概率模型在各种应用中取得了令人印象深刻的成果,这主要得益于近似推断的最新进展。然而,我们不能期望近似推断是万能的,特别是对于日益复杂的模型。与此同时,概率深度学习的进展表明,可处理的模型,如求和-乘积网络(SPNs),也可以用来忠实地捕获高维分布。因此,构建结合两者优势的结构化概率模型似乎是一个富有成效的途径。

我们提出了一个名为SuPAIR的AIR模型的修改版本,它使用SPNs作为对象外观模型来学习计数和定位场景元素。这允许SuPAIR对对象和背景模型进行边缘化,得到一个校准良好的场景可能性。结果,SuPAIR推理网络不需要预测潜在的对象代码,大大减少了变分目标梯度估计的方差。正如我们的实验所示,这一特性使得训练时间显著减少,对象检测准确度提高,与原始AIR系统相比,噪声鲁棒性也得到了改善。

未来的工作有几个有趣的方向。一个可能的方向是将本文的见解与原始论文以来提出的AIR的各种扩展结合起来。SQAIR(Kosiorek等人,2018)将AIR扩展到序列领域,SPAIR(Crawford & Pineau,2019)提出了一个更可扩展的推理网络,MONet(Burgess等人,2019)具有学习到的对象掩模。由于这些模型都使用VAEs作为对象模型,并且我们的贡献与所使用的推理网络无关,它们应该可以无缝转移。

更一般地说,其他不涉及场景理解的结构化概率模型(Lake等人,2015;George等人,2017)也可能从可处理的组件中受益。为此,还应该探索使用其他显式概率模型,包括自回归模型,如NADE(Uria等人,2014)或PixelCNNs(van den Oord等人,2016)和归一化流(Rezende & Mohamed,2015)。虽然这些模型不提供可处理的边际,这构成了我们的场景交互模型的基础,但在其他领域可能不需要这个特性。最后,可以将SuPAIR的示例应用于深度概率编程(Tran等人,2017;Bingham等人,2018),力求实现一个框架,该框架通过使用可处理模型作为子组件和推理机器,结合通用概率建模和改进的推断。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档