概率电路+医疗领域知识的统一学习框架

CreateAMind

发布于 2024-06-04 15:36:32

480

发布于 2024-06-04 15:36:32

A Unified Framework for Human-Allied Learning of Probabilistic Circuits

概率电路的人类联合学习的统一框架 https://arxiv.org/abs/2405.02413

以前没有使用指定为约束的领域知识来学习一般类别的PC的参数。因此，为了填补这一差距，在这项工作中，我们将具体考虑六种不同类型的领域知识——即泛化、单调和协同定性影响 [Altendorf等人，2005]，上下文特定的独立性 [Boutilier等人，1996]，类别不平衡 [Yang等人，2014]，以及特权信息 [Pasunuri等人，2016]

实证回答以下问题：

(Q1) 领域知识能否作为约束忠实地纳入PC的参数学习中？

(Q2) 将知识作为领域约束纳入是否提高了PC的泛化性能？

(Q3) 该方法是否在现实世界数据上学到了更准确的模型？

(Q4) 该方法对控制领域集大小和惩罚权重的超参数有多敏感？此外，它对嘈杂或多余的建议是否稳健？

摘要

概率电路（PCs）已成为表示和学习复杂概率分布的有效框架。尽管如此，现有的关于PCs的研究主要集中在数据驱动的参数学习上，常常忽略了知识密集型学习的潜力，特别是在数据稀缺/知识丰富的领域，如医疗保健。

为了弥补这一差距，我们提出了一个新的统一框架，可以系统地将不同的领域知识整合到PCs的参数学习过程中。在几个基准测试以及现实世界数据集上的实验表明，我们提出的框架可以有效地利用领域知识，与纯数据驱动学习方法相比，实现更优越的性能。

1 引言

在可处理概率模型领域的最新发展使得通过将它们参数化为结构化计算图的形式，即众所周知的概率电路（PCs），有效地表示和学习复杂的概率分布成为可能[Choi等人，2020年]。

PCs的一个显著特点是它们能够在多项式时间内精确执行复杂的推理程序，这使得它们能够以显著的效率和可靠性对建模的变量进行概率推理。最近的工作集中在通过构建具有数百万参数的可扩展模型，并从数据中学习它们，以提高PCs的表达能力，达到与许多深度生成模型（DGMs）相媲美的性能[Peharz等人，2020a; Liu等人，2023a; Correia等人，2023; Sidheekh等人，2023]。

然而，像DGMs一样，这种深入且以数据为中心的PCs学习方法也使它们越来越依赖于大型数据集，并对异常值敏感[Ventola等人，2023]。这在许多实际应用中带来了显著的限制，特别是在医疗保健等领域，数据不仅稀缺，而且可能嘈杂且不可靠。正如我们将看到的，在这种情况下，纯数据驱动和深度PCs难以保持其有效性，并倾向于过度拟合训练示例，这引发了人们对其实用性和鲁棒性的担忧。

将领域知识和人类专家的建议整合到PCs的学习过程中，为这些挑战提供了一个引人注目的解决方案。领域专家可以提供宝贵的见解，这些见解超越了原始数据，提供了基于多年经验和情境理解的视角。当这些知识被整合到学习过程中时，它不仅可以帮助模型从较少的数据中泛化，还可以使它们更符合特定领域的需求和限制。在其他情境中，知识密集型策略已被证明在增强区分性[Kokel等人，2020; Odom等人，2015]以及生成模型[Altendorf等人，2005; de Campos等人，2008; Yang和Natarajan，2013; Mathur等人，2023]方面是有效的，使它们能够在数据有限或质量不佳的环境中更可靠地执行。然而，尽管有这些经过验证的好处，人类联盟和知识密集型学习的概念在更广泛的PCs背景下相对较少被探索。

我们提议填补这一差距，并将知识整合到PCs（概率分类器）的学习中。为此，我们首先开发了一个统一的数学框架，允许以概率领域约束的形式编码不同类型的知识。更具体地说，我们展示了领域知识，特别是用于实现泛化、管理特权信息和编码独立性的知识，可以有效地转化为等式约束，而用于处理类别不平衡、强制单调性以及捕获随机变量之间协同交互的知识则可以编码为不等式约束。然后，这些约束可以无缝地整合到PCs的学习中，从而使它们更能适应具有有限数据和建模需求的真实世界场景。

总体而言，我们做出了以下关键贡献：(1) 我们提出了一个统一框架，它涵盖了几种类型的领域知识，并允许将它们编码为领域约束。我们展示了它的六种特定实例化。(2) 我们为PCs开发了一个通用且健壮的参数学习算法，能够有效地利用这些领域约束。(3) 我们在数据有限但知识丰富的几个基准和真实世界场景中，实验性地验证了我们方法的附加效用。

2 背景

2.1 概率电路

概率电路（PCs）[Choi等人，2020]是生成模型，它们以计算图的形式表示概率分布，这些计算图由三种类型的节点组成——求和、乘积和叶子。图中的每个节点代表一组变量的（可能是未归一化的）分布，称为其作用域。图中的内部节点是求和和乘积。求和节点计算其子节点建模的分布的凸和，表示混合分布。乘积节点计算其子节点输出的乘积，表示其作用域上的分解分布。叶子节点编码简单的易于处理的分布，如高斯分布。PC自底向上进行评估，其根节点的输出给出了模型化的联合概率密度。

PC的结构必须满足某些属性，以便能够以可处理的方式执行精确推理，其中两个属性是平滑性和可分解性。平滑性要求求和节点的每个子节点的作用域是相同的。可分解性要求乘积节点的子节点的作用域是不相交的。正式地，PC M定义为一个2元组⟨G, θ⟩，其中G是一个由求和、乘积和叶子节点组成的有向无环图（DAG）。求和节点s的作用域为Ss上的分布在其子节点上的分布，以及乘积节点p的作用域为Sp上的分布是，

where Ch(p) denotes the children of node p.

在具有作用域Sl的叶子节点l处的分布被假设为易于处理，并且由θl参数化。简单的分布如伯努利分布、高斯分布等经常被用作叶子分布。

PC的结构和参数可以从数据中联合学习。结构学习算法通常使用启发式方法递归学习PC [Gens和Pedro，2013；Rooshenas和Lowd，2014；Dang等人，2020；Adel等人，2015；Peharz等人，2013]。或者使用可以容易地过度参数化并使用GPU扩展的随机结构[Mauro等人，2017；Peharz等人，2020b；Peharz等人，2020a]，从而将重点转移到使用数据驱动技术进行参数学习，从而产生深度和表现力强的PC [Correia等人，2023；Sidheekh等人，2023；Liu等人，2023a；Liu等人，2023b]。然而，这些高级PC通常需要大量数据才能有效学习，限制了它们在数据稀缺和嘈杂的环境中的使用。

2.2 基于知识的学习

在几个领域中，领域知识作为领域约束在指导概率模型的学习中起着至关重要的作用。这些约束简洁地编码了领域中的一般趋势信息。因此，它们是有效的归纳偏差，产生更有用和更准确的概率模型，特别是在嘈杂和稀疏的领域 [Towell和Shavlik，1994；van der Gaag等人，2004；Altendorf等人，2005；Yang和Natarajan，2013；Odom等人，2015；Kokel等人，2020；Plajner和Vomlel，2020]。虽然以前已经提出过使用概率约束来学习PC，但它们仅限于等式约束 [Papantonis和Belle，2021]。最近，定性影响约束被用来学习切割集网络的结构和参数 [Mathur等人，2023]，它们构成了PC的一个特定子类。然而，切割集网络具有额外的结构属性确定性 [Rahman等人，2014]，因此相同的方法不能用于所有PC。据我们所知，以前没有使用指定为约束的领域知识来学习一般类别的PC的参数。因此，为了填补这一差距，在这项工作中，我们将具体考虑六种不同类型的领域知识——即泛化、单调和协同定性影响 [Altendorf等人，2005]，上下文特定的独立性 [Boutilier等人，1996]，类别不平衡 [Yang等人，2014]，以及特权信息 [Pasunuri等人，2016]。

3用领域知识学习PCs

我们首先通过示例介绍我们提出的将六种关键类型的领域知识——泛化、单调性、上下文特定的独立性、类别不平衡、协同作用和特权信息——转化为领域约束C的方法。我们在统一的数学框架内制定这些约束，以便于与PCs轻松集成。假设给定了PC的结构G，那么从数据D和约束C学习PC的任务就简化为以下受约束的最大似然问题：

其中L表示由PC模拟的对数似然性。

3.1将知识编码为领域约束

这种形式的线性函数显然是可微分的，正如我们将在下面看到的，它仍然可以表示包括泛化、定性影响、上下文特定的独立性、类别不平衡和公平性在内的广泛约束，使用不同的f和g形式。为了将这些领域约束编码到PCs的参数学习目标中，我们将它们分为两大类——等式约束和不等式约束。

等式约束

这些约束要求两个条件概率查询相等。具体来说，

示例考虑使用多中心临床研究的数据来学习一个PC模型，以模拟妊娠糖尿病的风险。理想情况下，这样一个PC必须考虑诸如年龄、种族、BMI、家族史、遗传倾向和运动水平等风险因素之间的相互关系，通过建模它们之间的联合分布。

1. 从研究设计中可以明显看出，来自同一中心的受试者具有相似的分布。虽然这没有被显式地作为一个变量来建模，但可以作为领域约束来使用。我们称这种形式的约束为泛化约束（GC）。直观地说，GC可以帮助指定在分布中存在的对称性，如可交换性[Lüdtke等人，2022]、排列不变性[Zaheer等人，2017]等。这些约束可以表示为：

例如，测量遗传倾向对糖尿病的影响需要昂贵的测试，因此在部署时可能无法为患者提供。然而，如果这些特征在训练时可用，它们可以用来学习更准确的其他特征分布。我们称这种形式的约束为特权信息约束。这些约束可以表示为：

其中

表示在训练和部署期间观察到的变量集合，

表示仅在训练期间观察到的变量集合。

3. 先验知识可能会断言在特定条件下某些变量是独立的。例如，可以声明如果受试者患有妊娠糖尿病，BMI与年龄是独立的。我们称这些为上下文特定的独立性约束。它们可以表示为：

不等式约束

当我们需要一个或多个条件概率查询大于（或小于）其他查询时，可以采用不等式约束。涉及两个项的这种约束的典型形式可以以通用形式表示为：

示例继续以妊娠糖尿病建模为例，不等式约束可以让我们编码更复杂的领域知识形式，如下所述：

1. 在为妊娠糖尿病筛查设计的的概率模型中，最小化假阴性至关重要，因为被预测为低风险的患者可能不会接受进一步的临床测试。我们称这种形式的约束为类别不平衡权衡约束，它们可以编码为：

我们可能从先前的知识中得知，随着年龄的增长，妊娠糖尿病的概率也增加。我们称这种形式的约束为正单调性约束。具体来说，Xj对Xi的正单调影响

可以表示为：

两个变量的联合效应有时可能会显著增加结果的可能性，超过它们各自的效应。例如，年龄和BMI两者都高时，导致妊娠糖尿病的风险比单独高年龄或BMI值时要高得多。我们称这样的约束为正协同约束[杨和Natarajan，2013]。它们可以看作是二阶单调性约束。具体来说，Xj和Xk对Xi的正协同影响

可以表示为线性不等式：

表格1总结了如何将上述所有不同类型的知识编码为我们统一框架中的领域约束。表格2详细说明了与这些约束对应的领域集合。有关这些实例的更详细解释，请参阅附录。

3.2参数学习

使用编码的域约束，我们将PCs的知识密集型参数学习公式化如下:

4 实验评估

我们的框架是通用的，并且对使用的PC类型不敏感。

因此，为了实证验证将领域约束纳入其中的有效性，我们考虑了两种不同的深度PC实例化 - (i) RatSPN [Peharz等人，2020b] 和 (ii)EinsumNet [Peharz等人，2020a]。我们实现了这两种模型，并分别有无领域约束进行比较分析。我们设计了各种数据集和场景下的实验，以实证回答以下问题：

(Q1) 领域知识能否作为约束忠实地纳入PC的参数学习中？

(Q2) 将知识作为领域约束纳入是否提高了PC的泛化性能？

(Q3) 该方法是否在现实世界数据上学到了更准确的模型？

(Q4) 该方法对控制领域集大小和惩罚权重的超参数有多敏感？此外，它对嘈杂或多余的建议是否稳健？

我们详细阐述了回答上述每个问题的实验设置，并将更多的实现细节推迟到补充材料中。

(Q1) 领域约束的忠实纳入。

为了评估将领域约束与我们的框架整合的有效性，我们使用了从贝叶斯网络（BNs）派生的三个数据集，特别是Earthquake [Korb和Nicholson，2010]、Asia [Lauritzen，1988]和Sachs [Sachs等人，2005]，通过采样BNs生成的数据集。对于这些数据集，我们抽取了100个数据点，并基于从每个BN中提取的2个条件独立关系推导出领域约束。然后，这些关系被翻译成一组上下文特定的独立性约束。在表3的第1至3行中展示了有无这些领域约束训练的RatSPN的性能。值得注意的是，我们观察到纳入领域约束的RatSPN模型在所有数据集上的约束违反程度始终低于0.01，证实了我们的框架忠实整合有效领域约束的能力。此外，使用领域约束的RatSPN模型的性能超过了仅基于数据训练的对应模型。

(Q2) 泛化性能的提升。

为了评估领域约束提高PC泛化性能的能力，我们考虑具有可指定为泛化约束（GC）的基本对称性的数据分布。我们首先考虑一个合成的3D螺旋数据集[Sidheekh等人，2022]，如图1所示，包含10000个训练数据点、5000个验证数据点和5000个测试数据点。由于其复杂的螺旋结构，该数据集为建模提供了一个具有挑战性的场景，但其对称性可以利用来指定GC。我们通过指定沿x轴相隔2π的点并且位于单位半径的螺旋流形上是相似的，来编码螺旋结构的对称性。具体来说，我们使用100对数据点的形式((x, sin(x), cos(x)),(x+ 2π, sin(x+ 2π), cos(x+ 2π)))作为领域集。这使我们能够编码GC，而不需要领域专家编制大量的相似数据点对，这在现实世界场景中通常成本很高。附录中有研究该领域集大小敏感性的实验。我们通过增加上述100个数据点来扩充他们的训练数据，在200个周期上训练EinsumNet和RatSPN，以确保基线也能访问等价信息，以便进行公平比较。表4显示了平均测试对数似然值。EinsumNet和RatSPN指的是基线，而EinsumNet+GC和RatSPN+GC指的是我们提出的方法。我们可以看到，对于这两种模型，性能都有显著提升。纳入GC使模型能够利用数据集中存在的对称性，并对未见过的对称区域进行泛化，同时只需要领域集的一小部分样本。该实验还揭示了，简单地将这些数据点附加到训练集中，而不结构化地整合GC，并不能带来泛化性能的提升。图1展示了由EinsumNet和EinsumNet+GC随机采样的数据点的可视化。显然，由EinsumNet+GC生成的样本更接近测试数据分布。

转移到一个更复杂的设置，我们考虑了包含手写数字的MNIST图像数据集[Deng，2012]。我们通过采样100个前景像素的位置将其转换为基于集合的表示，如[Zhang等人，2019]中所做。这种转换结果是一种2D点云表示，它本质上展示了排列不变性——即使对于像GANs和VAEs这样的DGMs来说，也是一种难以建模的对称性[Li等人，2019; Kim等人，2021]。我们将把这个数据集称为Set-MNIST-Full。为了模拟深度PC可能会过拟合且知识可能很重要的数据稀缺设置，我们进一步将这个数据集分成两个——(i) Set-MNISTEven，只包含偶数数字；(ii) Set-MNISTOdd，只包含奇数数字。与MNIST类似，我们还处理了Fashion-MNIST数据集[Xiao等人，2017]，将其转换为基于集合的格式，我们称之为Set-Fashion-MNIST，通过采样每张图像的200个前景像素位置来创建点云表示。这些集合表示的渲染可视化在补充材料中给出。我们通过指定领域集标准为sim(x, x') = I[x' = π(x)]，其中π(x)输出x的排列，来编码排列不变性作为GC。实际上，我们为数据集中的每个样本定义GC领域集，取γsize = 2个排列。我们将在Q3中研究该方法对这一超参数的敏感性。我们在集合数据集上训练EinsumNet和RatSPN 200个周期，有无纳入GC，并在表4中报告测试性能。我们可以观察到，纳入GC有助于两个模型都实现了显著更高的性能。这一点从图3中可视化的有无GC学习模型生成的样本质量也可以看出。

为了获得进一步的见解，我们在图2中绘制了EinsumNet在Set-MNIST数据集上训练的EinsumNet的平均训练和验证对数似然的学习曲线。我们可以观察到，在没有GC的情况下，验证对数似然减少，而训练对数似然增加，这表明模型过拟合。在Set-MNISTEven和Set-MNISTOdd的情况下，这种现象更加明显，因为数据点的数量更少。另一方面，纳入GC使模型能够利用对称性更好地泛化。其他数据集上模型的学习曲线和生成样本的类似可视化在补充材料中给出。

除了GC，我们还考虑了单调影响陈述——一种更简洁的领域知识形式。这些影响陈述允许领域专家简洁地表达条件分布中的趋势，而无需指定确切的值。这对于像医疗保健这样数据集较小但拥有多年研究的丰富知识的领域特别有用。为了评估我们的框架将这种形式的领域知识整合到PCs的学习中，我们使用了UCI机器学习存储库中的4个数据集，即乳腺癌、糖尿病、甲状腺和心脏疾病。我们使用了Yang和Natarajan（2013）在先前工作中使用过的单调影响陈述。表3显示了在纳入单调影响陈述作为领域约束后，RatSPN在UCI数据集上学到的测试对数似然的改进。

(Q3) 在现实世界数据上的性能。我们使用临床研究的数据来评估我们的框架在现实世界数据上的性能。具体来说，我们使用了“Nulliparous Pregnancy Outcomes Study: Monitoring Mothers-to-Be”（nuMoM2b，[Haas等人，2015]）的数据。我们考虑了一个子集，包括3,657名具有妊娠糖尿病（GDM）及其7个风险因素数据的白人、欧洲血统的受试者，这些风险因素包括受试者的年龄（Age）、怀孕开始时的体重质量指数（BMI）、多囊卵巢综合征（PCOS）的存在、以代谢当量时间（METs）测量的体力活动、高血压（HiBP）的存在、糖尿病的家族史（Hist）以及衡量对糖尿病遗传倾向的多基因风险评分（PRS）。除了METs之外，所有风险因素都被认为会正向单调地影响GDM的风险，而METs被认为会负向单调地影响GDM的风险。表3的第8行显示了有无使用单调影响陈述作为约束学习RatSPN的测试对数似然。使用约束的RatSPN实现了更高的测试对数似然得分，证明了我们的框架对现实世界临床数据的有效性。

(Q4) 敏感性和鲁棒性。我们框架下的两个关键超参数是用于约束评估的领域集的大小，以及惩罚权重λ，它决定了对满足约束的重视程度。此外，在现实世界场景中，指定的领域知识可能是不完美或嘈杂的。因此，我们进行了消融研究，以了解我们框架的敏感性和鲁棒性。我们用

表示用于约束的领域集大小与数据集大小的比率。同样，为了模拟嘈杂的知识设置，我们用随机抽样的数据点替换了领域集中γnoise分数的部分。我们考虑了Set-MNIST-Even数据集，并在不同γsize、γnoise和λ值的情况下，通过纳入GC训练了一个EinsumNet 100个周期。我们在图4a中观察到，增加γsize通常会改善模型的泛化能力，但这种改善在某个点之后趋于平稳

。有趣的是，在变化γnoise时，我们在图4b中观察到，即使约束中有高达40%的噪声，模型的性能仍然相对稳定。这表明我们的框架是鲁棒的，因为数据可以补偿一定程度的知识噪声。在变化λ时，我们在图4c中观察到，λ太小会导致约束的利用不足，从而损害性能。相反，太大的λ可以主导最大似然训练，破坏平衡。最优的λ似乎在1左右，平衡了数据驱动的学习和约束满足。

5 讨论

我们的框架扩展并涵盖了使用约束学习概率生成和判别模型的几种先前方法。[Papantonis和Belle，2021]的工作主要关注等式约束，并且是我们更广泛框架内的一个特定实例。我们推广了[Mathur等人，2023]的方法，他们使用单调性约束来学习切割集网络（CNs [Rahman等人，2014]）的结构和参数。

[Altendorf等人，2005]使用了ceteris paribus1单调性约束来学习贝叶斯网络（BNs）的参数。与CNs类似，BNs也可以编译成选择性PCs [Peharz等人，2014]，使我们的框架也适用于这里。KiGB算法[Kokel等人，2020]利用软单调性约束来学习决策树。由于决策树可以转换为条件SPNs（CSPN [Shao等人，2020]），这也可以看作是我们框架内的一个特例。

总结来说，我们开发了一个统一框架，可以有效地将不同类型的概率知识整合到PCs的参数学习中。利用这个框架，我们提出了一种鲁棒的知识密集型PC参数学习方法，并通过实验验证了它可以有效地利用知识，在嘈杂和稀疏的数据环境中更好地泛化。整合更多形式的领域知识以及将框架扩展到以贝叶斯方式学习PC结构[Karanam等人，2023]是未来有希望的发展方向。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

框架