前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于仿真的推理前沿(SBI2019)

基于仿真的推理前沿(SBI2019)

作者头像
CreateAMind
发布2024-06-04 13:55:03
560
发布2024-06-04 13:55:03
举报
文章被收录于专栏:CreateAMindCreateAMind

The frontier of simulation-based inference基于仿真的推理前沿

https://arxiv.org/pdf/1911.01429

摘要

许多科学领域已经开发出复杂的模拟来描述感兴趣的现象。虽然这些模拟提供了高保真模型,但它们不适合进行推断,并且导致具有挑战性的逆问题。我们回顾了快速发展的基于模拟的推断领域,并确定了给该领域带来新动力的力量。最后,我们描述了前沿如何扩展,以便广泛的受众能够理解这些发展可能对科学产生的深远影响。

统计推断 | 隐式模型 | 无似然推断 | 近似贝叶斯计算 | 神经密度估计

机械模型可以用来预测系统在各种情况下的行为。这些模拟涵盖了距离尺度的范围,著名的例子包括粒子物理、分子动力学、蛋白质折叠、群体遗传学、神经科学、流行病学、经济学、生态学、气候科学、天体物理学和宇宙学(见图1)。编程语言的表达能力促进了复杂、高保真模拟的开发,而现代计算的能力提供了从这些模拟中生成合成数据的能力。不幸的是,这些模拟器不适合进行统计推断。挑战的来源是,对于给定的观测结果,概率密度(或似然)——频繁主义者和贝叶斯推断方法的基本要素——通常是难以处理的。这样的模型通常被称为隐式模型,并与可以明确计算观测结果似然的规范模型形成对比(1)。在不可处理似然下进行统计推断的问题设置被称为无似然推断——尽管这有点用词不当,因为通常人们试图估计不可处理的似然,所以我们认为“基于模拟的推断”这个术语更为恰当。

似然的不可处理性是科学进步的一个障碍,因为统计推断是科学方法的关键组成部分。在出现这种障碍的领域,科学家们已经开发了各种临时的或特定领域的方法是来克服它。特别是,两种常见的传统方法依赖于科学家利用他们对系统的洞察力来构建强大的摘要统计量,然后将观测数据与模拟数据进行比较。在第一种方法中,使用密度估计方法来近似由模拟器生成的样本的摘要统计量的分布(1)。这种方法在频率主义范式中被用于希格斯玻色子的发现,并在图3e中进行了说明。或者,一种称为近似贝叶斯计算(ABC)(2, 3)的技术基于涉及摘要统计量的一些距离度量来比较观测数据和模拟数据。ABC在群体生物学、计算神经科学和宇宙学中广泛使用,并在图3a中进行了描述。这两种技术都为科学界的一大段和多样化的领域服务。

最近,基于模拟的推断工具箱经历了加速扩展。广义上讲,有三种力量正在给该领域带来新的动力。首先,在研究基于模拟的推断和研究机器学习中的概率模型的人之间进行了显著的交叉授粉(4),机器学习能力的惊人增长使得新方法成为可能。第二,主动学习——不断利用所获得的知识指导模拟器的想法——被认识到是提高各种推断方法样本效率的关键思想。第三个研究方向已经不再将模拟器视为一个黑盒,而是专注于允许推断引擎直接进入模拟器内部细节的集成。

在这个正在进行的技术革命中,基于模拟的推断的格局正在迅速变化。在这篇综述中,我们旨在为读者提供旧的和新的推断技术背后的基本思想的高层次概述。我们没有在技术细节上讨论算法,而是专注于研究的当前前沿,并对一些我们认为特别令人兴奋的正在进行的发展发表评论。我们首先在第1节中描述基于模拟的推断和传统方法。在第2节中,我们讨论了三个主要的技术进步方向。然后,我们在第3节中展示了它们如何可以被结合用于基于模拟的推断的不同工作流程。我们最后在第4节中讨论了基于模拟的推断的未来。

1. 基于模拟的推断

A. 模拟器。统计推断是在统计模型的背景下执行的,在基于模拟的推断中,模拟器本身定义了统计模型。就本文而言,模拟器是一个计算机程序,它接受一组参数θ作为输入,采样一系列内部状态或潜在变量zi ∼ pi(zi|θ, z<i),最终产生一个数据向量x ∼ p(x|θ, z)作为输出。涉及随机抽样并被解释为统计模型的程序被称为概率程序,模拟器是其中的一个例子。在这个通用公式中,真实生活的模拟器可能会有相当大的差异:

意义声明 我们概述了机器学习的最新发展如何彻底改变基于模拟的推理及其对物理科学的深远影响。

• 参数θ描述了底层的机械模型,因此影响了转移概率pi(zi|θ, z<i)。通常,机械模型可以由领域科学家解释,θ具有相对较少的组件和固定的维度。例子包括物理系统中哈密顿量的系数、病原体的致病力和潜伏率,或者自然界的基本常数。

• 在数据生成过程中出现的潜在变量z可能直接或间接对应于系统的物理有意义的状态,但通常这种状态在实践中是不可观察的。潜在空间的结构在模拟器之间有很大的差异。潜在变量可以是连续的或离散的,潜在空间的维度可能是固定的,也可能根据模拟器的控制流而变化。模拟可以自由结合确定性和随机步骤。模拟器的确定性部分可能是可微的,也可能涉及不连续的控制流元素。在实践中,一些模拟器可能方便地访问潜在变量,而其他模拟器实际上是黑盒。任何给定的模拟器都可能以几乎任何方式结合这些不同的方面。

• 最后,输出数据x对应于观测值。它们可以是从一些未结构化的数字到高维和高度结构化的数据,例如图像或地理空间信息。

例如,考虑图1中显示的系统。粒子物理过程通常只依赖于少数感兴趣的参数,如粒子质量或耦合强度。潜在过程结合了由量子场理论严格描述的高能相互作用,以及由此产生的粒子通过极其复杂的探测器的传递,后者最准确地用具有数十亿潜在变量的随机模拟来建模;这第二部分通常不依赖于感兴趣的参数。输出数据在其原始形式中,由数百万个传感器读数组成,尽管有一个既定的流程将这些原始数据压缩成数十到数百个可观测量。

流行病学模拟可能基于具有地理空间属性的网络结构,潜在过程由许多重复的结构相同随机时间步骤组成。相比之下,宇宙演化的宇宙学模拟可能包括一个高度结构化的随机初始状态,随后是平稳的确定性时间演化。

这些差异意味着没有一种放之四海而皆准的推断方法。在这篇综述中,我们旨在阐明选择给定问题最合适方法所需的考虑因素。

B. 推断。科学推断任务因所推断的内容而异:给定观测数据x,目标是推断输入参数θ,还是潜在变量z,还是两者?有时只有一部分参数(或潜在变量)是感兴趣的,而其余的是干扰参数(即我们不直接感兴趣的参数,但必须考虑,因为它们影响数据的分布)。我们将重点关注参数设置中推断θ的常见问题,我们将评论允许对z进行推断的方法,我们不会专注于非参数逆问题。

推断可以采用频率主义或贝叶斯方法进行,并且可能限于点估计

,或者扩展以包括概率不确定性的概念。在频率主义情况下,置信区间通常通过对基于似然比检验统计量的假设检验进行反转来形成。在贝叶斯推断中,目标通常是计算后验分布。

对于观测数据 x 和给定的先验 p(θ)。在这两种情况下,似然函数 p(x|θ) 都是关键因素。

基于模拟的推理问题的基本挑战是模拟器隐式定义的似然函数 p(x|θ) 通常不易处理,因为它对应于通过潜在空间的所有可能轨迹的积分,i 。e. 模拟器所有可能的执行轨迹。也就是说,

在其中

是数据x和潜在变量z的联合概率密度。对于一个简单的顺序数据生成过程,联合似然可以写成

。对于具有大潜在空间的真实模拟器来说,显然无法明确计算这个积分。由于似然函数是频率主义和贝叶斯推断的中心要素,这对于许多领域的推断来说是一个主要挑战。本文回顾了基于模拟的或无似然推断技术,这些技术使得尽管存在这种不可处理性,仍能进行频率主义或贝叶斯推断。这些方法可以被视为在具有准确、随机模拟器的情况下,对模型参数进行逆不确定性量化(UQ)的专业化。

第二种更广泛认可的不可处理性来源是贝叶斯推断中的证据——方程(1)的分母——涉及对参数θ的积分。在具有高维参数的问题中,这变得不可处理,与似然函数的不可处理性无关。这个挑战通常通过马尔可夫链蒙特卡洛(MCMC)方法(10, 11)或变分推断(VI)(12)来解决。

在实践中,一个重要的区分是基于单一观测的推断与基于多个独立同分布(i.i.d.)观测的推断。在后一种情况下,似然可以分解为每个i.i.d.观测的单独似然项,如

。例如,时间序列数据通常是非i.i.d.的,必须被视为单一高维观测,而在寻找希格斯玻色子的碰撞数据分析中,构成了许多i.i.d.测量的数据集。这种区分在考虑推断技术的计算成本时很重要,因为i.i.d.情况下的推断将需要多次重复评估单独的似然

C. 传统方法。没有可处理似然的推断问题并不是一个新问题,已经开发了两种主要方法来解决它。可以说最广为人知的是近似贝叶斯计算(ABC)(2, 3)。直到最近,它是如此的确立,以至于“无似然推断”和“ABC”这两个术语经常可以互换使用。在最简单的拒绝ABC中,参数θ从先验中抽取,模拟器用这些值运行以采样

),并且如果模拟数据足够接近观测数据,则保留θ作为后验样本。本质上,似然通过满足条件

的概率来近似,其中ρ是某种距离度量,ε是容差。然后接受的样本遵循后验的近似版本。我们在图3a中展示了这个算法的示意图(对于具有建议函数的更精细的马尔可夫链蒙特卡洛算法)。

在极限

时,ABC的推断变得精确,但对于连续数据,接受概率消失。在实践中,小值的ε需要不切实际的大量模拟。对于较大的ε,样本效率提高,但以牺牲推断质量为代价。同样,ABC的样本效率在高维数据x的情况下扩展性差。由于数据直接影响拒绝过程(在更高级的ABC算法中,建议分布),对新观测的推断需要重复整个推断算法。

因此,ABC最适合单一观测的情况,或者最多几个i.i.d.数据点。

由于篇幅原因无法充分介绍ABC文献,我们引用了ABC方法的综述,见参考文献[13],并强调了与MCMC[14]和顺序蒙特卡洛(SMC)[15, 16]的结合。

第二种基于模拟的推断经典方法是通过使用直方图或核密度估计来估计模拟数据的分布,从而创建一个似然模型(1)。然后,频率主义和贝叶斯推断就像似然可以处理一样进行。我们在图3e中草拟了这个算法(将绿色学习步骤替换为经典密度估计方法)。这种方法与ABC足够相似,被参考文献[17]的作者称为“近似频率计算”。与ABC的一个优点是,它是可以摊销的:在模拟和密度估计阶段的前期计算成本之后,新的数据点可以高效地评估。在图3e中,这表现为蓝色的“数据”框只在推断阶段进入,并不会影响昂贵的模拟步骤。这个属性使得基于密度估计的推断特别适合有许多i.i.d.观测的问题,这是它在粒子物理测量中广泛使用的一个关键原因。

这两种传统方法都受到维度的诅咒:在最坏的情况下,所需的模拟数量随着数据维度x呈指数增长。因此,两种方法都依赖于低维摘要统计量y(x),推断的质量与这些摘要保留关于参数θ的信息的能力密切相关。传统上,开发强大的摘要统计量是领域专家的任务,并且在推断之前就已经规定了摘要统计量。

2. 基于模拟的推断的前沿

这些传统的基于模拟的推断技术多年来在几个领域发挥了关键作用。然而,它们在三个关键方面存在不足:

• 样本效率:ABC和经典密度估计技术都受到维度的诅咒的影响。较差的扩展性意味着提供良好的似然或后验估计所需的模拟样本数量可能非常昂贵。

• 推断质量:将数据简化为低维摘要统计量不可避免地丢弃了数据中关于θ的一些信息,这导致统计能力下降。ABC中较大的ε参数值或核密度估计的带宽参数会导致对真实似然的近似较差。两者都降低了推断的整体质量。

• 摊销:使用ABC对新的观测数据集进行推断需要重复推断链的大部分步骤,特别是如果建议分布依赖于观测数据。该方法在应用于大量观测时扩展性差。另一方面,基于密度估计的推断可以摊销:计算成本高昂的步骤不需要为新的观测重复执行。这对于具有i.i.d.观测的情况特别理想。

近年来,新的功能变得可用,让我们可以改进所有这三个方面。我们将它们大致归类为三个主要的进展方向:

1. 机器学习领域的革命使我们能够处理更高维度的数据,这可以提高推断的质量。基于神经网络替代模型的推断方法直接受益于深度学习的惊人进展速度。

2. 主动学习方法可以系统地提高样本效率,让我们能够处理计算成本更高的模拟器。

3. 自动微分和概率编程与模拟代码的深度集成,以及通过从模拟器中提取的额外信息增强训练数据,正在改变模拟器在推断中的处理方式:它不再是一个黑盒,而是暴露在推断工作流程中。

我们在图2中概述了这些趋势,将推断任务的格局广泛分类为数据维度(垂直轴)和模拟器复杂性(水平轴)的二维平面。

A. 机器学习的革命。在过去十年中,机器学习技术,特别是深度神经网络,已经成为解决各种问题的通用、强大且流行的工具(18)。神经网络最初在监督学习任务上取得了突破,例如分类和回归。它们可以轻松组合来解决更高层次的任务,使自己适用于具有层次结构或组合结构的问题。已经开发了针对各种数据结构量身定制的架构,包括针对非结构化数据的密集或全连接网络,利用空间结构的卷积神经网络(例如在图像数据中),用于变长序列的递归神经网络,以及用于图结构数据的图神经网络。选择一个适合特定数据结构的架构是归纳偏差的一个例子,它更普遍地指学习算法中固有的假设,而与数据无关。归纳偏差是深度学习大多数成功应用背后的一个关键因素,尽管很难精确描述它的作用。

神经网络正在积极开发的一个领域是高维中的密度估计:给定一组点

,目标是估计概率密度p(x)。由于没有明确的标签,这通常被视为无监督学习任务。我们已经讨论过,基于例如直方图或核密度估计的经典方法在处理高维数据时扩展性不好。在这个领域,基于神经网络的密度估计技术越来越受欢迎。

这些基于神经网络的密度估计技术中有一种是归一化流(19-34),其中通过一个参数化的可逆变换

将由简单基础分布

(如多变量高斯)描述的变量进行转换,该变换具有可处理的雅可比矩阵。然后目标密度

根据变量变换公式给出,作为基础密度和变换雅可比矩阵的行列式的乘积。可以堆叠多个这样的步骤,概率密度通过连续的变量转换“流动”。变换的参数\(\phi\)通过最大化观测数据在模型下的可能性

进行训练,从而得到一个近似真实未知密度p(x)的模型密度。除了具有可处理的密度外,还可以通过从基础分布中抽取隐藏变量u并应用流变换来从模型生成数据。神经密度估计器已经推广到对附加输入建模的依赖性,即建模条件密度,如似然p(x|θ)或后验(p(θ|x)。

另一类方法使用自回归模型,其中高维变量的概率分布被分解为各个组成部分的连续条件密度(22-30)。这些模型具有表现力,具有可处理的(条件)密度,并且可以用来生成合成数据。虽然自回归模型在工业应用中有些不受欢迎,因为从它们生成样本可能较慢,但顺序特性更符合模拟器编写的方式,并提供了将神经网络潜在变量与模拟器语义上有意义的潜在变量对齐的机会。

生成对抗网络(GANs)是基于神经网络的另一种类型的生成模型。与归一化流和自回归模型不同,生成器实现的变换不受限制必须是可逆的。虽然这允许更多的表达力,但由生成器定义的密度是不可处理的。由于最大似然不可能是训练目标,所以生成器与一个对手相对抗,其角色是区分生成的数据和目标分布。我们将在后面讨论如何使用所谓的“似然比技巧”将相同的想法用于基于模拟的推断。

B. 主动学习。一个简单但影响力很大的想法是在预期能够最大程度增加我们知识的参数点上运行模拟器。这可以迭代地完成,这样在每次模拟后,来自所有先前运行的知识被用来指导接下来应该使用哪个参数点。主动学习这个想法有多种技术实现。它通常在贝叶斯背景下应用,那里的后验可以持续更新并用来引导模拟器参数的建议分布(35-41)。但它同样适用于有效计算频率主义置信集(42-44)。即使是简单的实现也可以显著提高样本效率。在决策制定、实验设计和强化学习的背景下也讨论了类似的想法,我们期望从这些领域之间的交叉授粉中进一步改进推断算法。例如,在强化学习(45, 46)或贝叶斯优化(47)的背景下偶尔讨论的一个问题,但尚未应用到无似然设置中,是如何利用提供多个精度或近似级别的多保真模拟器。

C. 集成和增强。机器学习和主动学习可以显著提高与传统方法相比的推断质量和样本效率。然而,它们总体上并没有戏剧性地改变基于模拟的推断的基本方法:它们仍然将模拟器视为一个生成黑盒,它将参数作为输入并提供数据作为输出,模拟器和推断引擎之间有明确的分离。研究的第三个方向正在改变这种观点,打开这个黑盒以获取更多信息,并将推断和模拟更紧密地集成。

这种转变的一个例子是概率编程范式。Gordon等人(48)将概率程序描述为通常的函数式或命令式程序,加上两个额外的结构:(1)从分布中随机抽取值的能力,以及(2)通过观察来条件化程序中变量值的能力。我们已经将模拟器描述为专注于结构的概率程序,这不需要打开黑盒。然而,对观察的条件要求更深层次的集成,因为它涉及控制生成过程中的随机性。这种方法抽象了实现粒子滤波器和顺序蒙特卡洛(SMC)(49)所需的能力。以前,这需要用特殊用途的语言编写程序;然而,最近的工作允许将这些能力以最小的变化添加到现有的模拟器代码库中(50)。最终,概率编程旨在提供工具,以推断在观察条件下模拟器的所有执行跟踪的难以置信的复杂空间。

一个补充性的发展是观察到可以从模拟器中提取出表征潜在数据生成过程的额外信息,并用来增强用于训练替代模型的数据。这种增强的训练数据可以在监督学习目标中被利用,并且可以显著提高替代模型训练的样本效率。那些开发推断算法的人和那些熟悉模拟器细节的人应该考虑,除了仅有能力采样x ∼ p(x|θ)之外,以下属性中相应的数量在模拟器中是否定义良好且易于处理。

这些量随后可以用来增强模拟器的通常输出x,并可以在监督学习目标中被利用,这可以显著提高替代模型训练的样本效率(51-53),我们将在后面详细说明。

上述许多量涉及导数,现在可以使用自动微分(通常简称为autodiff)高效计算(54)。自动微分是一类类似于但比深度学习中无处不在的反向传播算法更通用的技术。自动微分,像概率编程一样,涉及对模拟代码的非标准解释,并且已经由一个小型但已建立的计算机科学领域发展而来。近年来,一些人主张,将深度学习更好地描述为微分编程(55, 56)。从这个角度看,将自动微分集成到现有的模拟代码中是利用深度学习进步的更直接方法,而不是试图将领域知识整合到一个完全陌生的基质中,如深度神经网络。

从模拟器中提取必要信息再次需要深入代码集成。虽然将概率编程范式整合到现有代码库中的技术才刚刚出现,但在最常用的科学编程语言中开发工具以实现自动微分已经进展良好。我强调上述两种量(II和III)涉及自动微分和概率编程。将推断和模拟集成以及用额外的量增强训练数据的想法,有潜力改变我们对基于模拟的推断的思考方式。特别是,这种视角可以影响模拟代码的开发方式,以提供这些新能力。

3. 基于模拟的推断工作流程

这些广泛的能力可以结合成不同的推断工作流程。其中一些在结构上与传统的ABC和基于密度估计的方法相同,而其他一些则根本不同。作为指导,让我们首先讨论常见的构建块,以及在每个组件中可以采取的不同方法。在图3和随后的章节中,我们将把这些块组合成不同的推断算法。

所有推断方法的一个核心部分是运行模拟器,在图3中以黄色五边形显示。运行模拟器的参数来自某个建议分布,该分布可能或可能不依赖于贝叶斯设置中的先验,并且可以静态选择,或通过主动学习方法迭代选择。接下来,模拟器可能产生的高维输出可以直接用作输入到推断方法,或简化为低维摘要统计量,这些统计量可以预先规定或从数据中学习。

推断技术可以大致分为两类:一类像ABC那样在推断过程中使用模拟器本身,另一类构建替代模型并用其进行推断。在第一种情况下,模拟器的输出直接与数据进行比较,见图3的上面板。在后一种情况下,模拟器的输出用作估计或机器学习阶段的训练数据,如图3底面板中的绿色框所示。产生的替代模型以红色六边形显示,然后用于推断。

算法以不同的方式解决真实似然的不可处理性:一些方法构建了似然函数的可行替代品,其他方法构建了似然比函数的可行替代品,这两者都使频率主义推断变得简单。在其他方法中,似然函数从未显式出现,例如,当它被隐式替换为拒绝概率时(这种方法并不适合频率主义推断)。

贝叶斯推断的最终目标是后验分布。方法在是否提供从后验分布中抽取的参数点样本方面有所不同,例如来自MCMC或ABC的样本,或者近似后验函数的可行函数。同样,一些方法需要在工作流程的早期指定要推断的数量,而其他方法允许推迟此决定。

A. 在推断过程中直接使用模拟器。现在让我们讨论如何将这些构建块和计算能力结合成推断技术,从像ABC那样在推断过程中直接使用模拟器的方法开始。我们在图3的上面板中概述了一些这些算法。

ABC的一个主要缺点是它依赖于低维摘要统计量。分类器ABC(Classifier ABC, 57)通过训练一个分类器来估计观测数据和模拟数据之间的差异,从而消除了将数据压缩成摘要统计量的要求。

原始拒绝ABC算法样本效率低下的一个原因是,模拟器是在来自先验的参数点上运行的,这些参数点在与观测数据严重不符的区域可能具有很大的质量。已经提出了不同的算法,它们改为在预期能够最大程度提高对后验知识了解的参数点上运行模拟器(35-39)。与普通的ABC相比,这些技术提高了样本效率,尽管它们仍然需要选择摘要统计量、距离度量ρ和容差ε。

如果模拟器的最后阶段是可处理的,或者模拟器是可微的(分别是第2.C节列表中的属性I和VI),则可以进行渐近精确的贝叶斯推断(51),而无需依赖距离容差或摘要统计量,这消除了ABC在推断质量方面的主要限制。

概率编程范式为推断的执行方式提供了更根本的变化。首先,它要求模拟器用概率编程语言编写,尽管最近的工作允许以最小的变化将这些能力添加到现有的模拟器中(50)。此外,概率编程要么需要对最后一步p(x|z, θ)(量I)有可处理的似然,要么引入类似ABC的比较。

当满足这些标准时,存在几种推断算法可以从给定观测数据x的输入参数θ和潜在变量z的后验分布p(θ, z|x)中抽取样本。这些技术要么基于MCMC,见图3c,要么基于训练神经网络以提供建议分布(58),如图3d所示。与ABC的关键区别在于,推断引擎控制程序执行的所有步骤,并且可以偏向随机潜在变量的每次抽取,使模拟更有可能与观测数据匹配,从而提高样本效率。

这些算法的一个优势是它们允许推断不仅仅是模拟器的输入参数,而是整个导致特定观测的潜在过程。这使我们能够回答关于科学过程的完全不同的问题,增加了一种基于替代模型的方法所不具备的特殊类型的物理可解释性。虽然标准的ABC算法原则上允许对z进行推断,但概率编程更有效地解决了这个任务。

这三种基于替代模型的方法都是可以摊销的:在前期的模拟和训练阶段之后,替代模型可以高效地针对任意数据和参数点进行评估。它们需要提前指定感兴趣的参数,然后网络隐式地对模拟器中的所有其他(潜在)变量进行边缘化。所有三类算法都可以采用主动学习元素,如迭代更新的建议分布,引导模拟器参数θ朝向相关参数区域,从而提高样本效率。使用神经网络消除了对低维摘要统计量的要求,让所采用的模型自行学习高维数据中的结构,从而可能提高推断质量。

尽管这些方法在根本上有相似之处,但在模拟似然、似然比和后验之间还是存在一些差异。直接学习后验提供了贝叶斯推断中的主要目标量,但在推断方法的每个阶段都引入了先验依赖性。学习似然或似然比能够使频率主义推断或模型比较成为可能,尽管对于贝叶斯推断,还需要额外的MCMC或VI步骤来从后验中生成样本。似然或似然比估计器的先验独立性还带来了在推断过程中更改先验的额外灵活性。训练一个生成模型来近似似然或后验,与学习似然比函数相比,一个优势是增加了能够从替代模型中采样的功能。另一方面,学习似然或后验是一个无监督学习问题,而通过分类器估计似然比是一个监督学习的例子,通常是一个更简单的任务。由于对于更高层次的推断目标,似然和似然比可以互换使用,因此学习似然比函数的替代模型通常更有效。

另一种允许我们利用监督学习的策略是基于从模拟器中提取额外的数量,这些数量表征了潜在过程的似然(例如第2.C节列表中的II和IV)。这些额外的信息可以用来增强替代模型的训练数据。由此产生的监督学习任务通常可以更高效地解决,最终提高推断任务中的样本效率(17, 52, 53, 78)。

基于替代模型的方法从为给定问题施加适当的归纳偏差中受益。人们普遍认为,神经替代模型的网络架构应根据数据结构(例如图像、序列或图)进行选择。另一种可能更具深远意义的施加归纳偏差的方式是让替代模型反映模拟器的因果结构。手动识别相关结构并设计适当的替代架构非常特定于领域,但已被证明可以改善一些问题的性能(79-81)。最近,人们正在尝试自动化创建模仿模拟的替代模型的过程(82)。展望未来,人们希望学习反映粗粒化系统的因果结构的替代模型。如果这是可能的,它将允许替代模型仅对从底层机械模型中出现的显现现象的相关自由度进行建模。

C. 预处理和后处理。在核心推断算法周围,还有一些额外的步骤,可以作为主要推断阶段之前的预处理步骤,或者作为主要推断步骤之后的“后燃器”。

一个预处理步骤是学习强大的摘要统计量y(x)。由于维度的诅咒,ABC和基于经典密度估计的推断方法都需要将数据压缩到低维摘要统计量中。它们通常由领域科学家根据对问题的直觉和知识手动选择,但与原始数据相比,得到的摘要统计量通常会丢失一些信息。这些算法的一个最小侵入式扩展是首先学习具有某些最优性质的摘要统计量,然后运行如ABC这样的标准推断算法。我们在图3b中为ABC概述了这种方法,但它同样适用于基于密度估计的推断。

得分t(x|θ) ≡ ∇θp(x|θ),即对参数的对数(边际)似然的梯度,定义了这样一个最优摘要统计量的向量:在θ的邻域内,得分分量是充分统计量,它们可以用于无损信息的推断。就像似然函数一样,得分本身通常也是不可处理的,但可以根据量V和指数族近似来估计(83, 84)。如果可用量II,可以从模拟器提取的增强数据用来训练一个神经网络来估计得分(52),而不需要这样的近似。学习到的摘要统计量也可以对干扰参数(85, 86)变得稳健。

即使不需要将数据简化为低维摘要统计量,在某些领域,测量的原始或“低级”数据可能非常高维。那么常见的做法是将它们压缩成一组可管理的“高级”特征,这些特征的维度适中,并使用这些压缩后的数据作为输入到推断工作流程中。

推断编译(58)是概率编程算法的预处理步骤,如图3d所示。模拟器的初始运行用来训练一个神经网络,用于参数θ和潜在变量z的序贯重要性抽样。

在核心推断工作流程完成后,一个重要的问题是结果是否可靠:在存在样本量有限、网络容量不足或优化效率不高等不完美情况下,结果是否可信?

一个解决方案是对推断结果进行校准。利用模拟器为任何参数点生成数据的能力,我们可以使用参数自举方法来计算推断工作流程中涉及的任何量分布。这些分布可以用来校准推断过程,提供具有适当覆盖和可信度的置信区间和后验(17, 73)。虽然原则上是可能的,但这样的程序可能需要大量的模拟。

在推断阶段结束时,可以应用的其他诊断工具包括训练分类器来区分来自替代模型和真实模拟器的数据(73),检查似然、似然比或得分估计器的已知期望值(17);变化参考参数,这些参数应该让推断结果保持不变(73);集合方法;以及将网络输出的分布与已知的渐近性质进行比较(87-89)。通过这些基本检查并不能保证估计器是正确的,但未能通过它们则表明存在问题。这些方法中的一些可能用于不确定性估计,尽管这种误差线(error bars)的统计解释并不总是显而易见的。

这些诊断工具没有解决模型设定不当和模拟器不是被研究系统准确描述时遇到的问题。模型设定不当是使用规定模型和隐式模型进行推断时同样会遇到的问题。通常,这是通过扩展模型以增加灵活性并引入额外的干扰参数来解决的。

D. 建议。选择上述方法中哪一种最适合特定问题所需的考虑因素将包括推断目标、模型参数、潜在变量和数据的维度;是否有好的摘要统计量可用;模拟器的内部结构;模拟器的计算成本;对模拟器运行方式的控制水平;以及模拟器是黑盒还是可以从中提取第2节中讨论的任何量。尽管如此,我们认为现有的研究让我们能够提供一些一般性的指导。

首先,如果第2节中讨论的任何量可用,应该利用它们。对于可微模拟器的情况(51)、对于数据和潜在变量联合似然可访问的模拟器(52),以及明确编写为概率编程框架中的概率模型的模拟器(90),都有强大的算法可用。

当目标不仅是对参数θ进行推断,还包括潜在变量z时,概率编程也是最通用的方法。

如果已经建立了强大的低维摘要统计量,传统技术仍然可以提供合理的性能。然而,在大多数情况下,我们建议尝试基于训练神经网络替代似然(41, 69)或似然比(57, 73, 76)的方法。如果从替代模型生成合成数据不重要,学习似然比而不是似然允许我们利用强大的监督学习方法。

最后,主动学习技术可以提高所有推断技术的样本效率。主动学习(根据特定观测数据集定制效率)和摊销(从对观测数据不敏感的替代模型中获益)之间存在权衡。这里的良好折衷将取决于观测数量和后验与先验的尖锐度对比。

4. 讨论

直到最近,面对逆问题和复杂模拟器作为前向模型的科学家,除了选择ABC或基于经典密度估计技术的方法外,几乎没有其他选择。虽然这些方法为某些科学领域提供了很好的服务,但它们在很大程度上依赖于专家提供的强大的摘要统计量。因此,这些技术劳动密集,并且不适应于高维数据,在高维数据中,强大的摘要统计量并不明显。虽然没有明确说明,但存在一个传统方法不再有用的边界,超过这个边界,科学家必须求助于其他没有作为与底层机械模型相关的统计陈述框架的启发式方法。

“无似然推断”一词为以前相互独立的社群提供了一个汇聚点,并出现了一种新的通用语言。这促进了显著的交叉授粉,并引领了基于模拟的推断的复兴。强大的机器学习方法的出现,使从业者能够直接处理高维数据,并减少对专家精心制作的摘要统计量的依赖。新编程范式,如概率编程和可微编程,提供了新的能力,使得基于模拟的推断的方法得以完全创新。最后,将统计和计算考虑结合起来,从更系统的角度看待基于模拟的推断,已经生根。在这里,主动学习引领着道路,但我们期望随着基于模拟的推断的成熟,会有更多像这样的进步。

快速发展的前沿意味着,科学领域的几个领域应该预期在推断质量上会有显著提高,或者从启发式方法过渡到那些基于与底层机械模型相关的统计术语的方法。期待这种转变可能对科学产生深远影响,这并非不合理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档