Bayesian Variable Selection in Generalized Linear Models
广义线性模型中的贝叶斯变量选择
https://arxiv.org/pdf/2606.24357


摘要
广义线性模型(GLMs)中的协变量选择是统计学中的一个基本问题,因为纳入无关预测变量可能导致过拟合和可解释性差,而遗漏相关预测变量则可能导致估计有偏。大多数变量选择的贝叶斯方法——包括尖峰-平板先验和连续收缩先验——存在关键局限性,例如:(i)基于非完全共轭的公式化表达,(ii)局限于线性模型,或(iii)缺乏对变量选择过程和模型参数的后验一致性保证。在本研究中,我们提出了一个用于广义线性模型中协变量选择的完全贝叶斯层次共轭框架,该框架适用于指数族中的任何分布,其基础是对二元包含指示变量进行建模,该指示变量直接编码协变量在线性预测器中的包含情况。在我们的方法中,变量选择和参数估计同时进行,在后验推断中同时结合了这两种不确定性来源。因此,我们的方法提供了一个有效的模型后贝叶斯选择程序。 我们提出了所提出的用于广义线性模型的完全共轭贝叶斯变量选择的理论保证,确立了包含指示变量和活跃回归系数的后验一致性。我们推导了一种高效的吉布斯采样算法,并提供了相应的R语言包实现。我们在合成数据集和真实世界数据集上验证了所提出的方法,展示了具有竞争力的预测和推断性能。 关键词:贝叶斯变量选择,广义线性模型,后验模型选择,一致性保证,吉布斯采样算法。
1 引言
在广泛用于回归和分类任务的广义线性模型(GLMs)中,变量或协变量选择是识别用于解释响应变量的最相关预测变量的关键步骤。在本研究中,我们将感兴趣的标量响应称为目标变量或因变量,并将用于对响应进行建模的解释量称为协变量——在统计学文献中通常称为预测变量或变量,在机器学习领域则称为特征。“协变量选择”一词指的是识别哪些协变量对预测目标变量最相关的过程。纳入无关或冗余的协变量会导致模型不必要地复杂化,使其易于过拟合且难以解释;而遗漏重要的协变量则会导致估计有偏和预测性能低下。
协变量选择一直是频率学派和贝叶斯统计学研究的主题。协变量选择的频率学派经典方法通常依赖于正则化技术,这些技术通过惩罚函数来平衡模型拟合度和复杂度,鼓励向稀疏模型收缩。著名的例子包括LASSO (Tibshirani, 1996)、岭回归、桥估计量 (Frank and Friedman, 1993; Fu, 1998) 以及基于L¹的惩罚 (Donoho and Johnstone, 1994; Fan and Li, 2001)。几种贝叶斯协变量选择方法也已被开发出来,参见Lu和Lou (2022) 应用于回归问题的广泛综述、O'Hara和Sillanpää (2009) 以及其中的参考文献。这些贝叶斯技术通常通过在回归系数上放置先验分布来解决变量选择问题,这导致自然表达稀疏性的后验分布。在贝叶斯变量选择框架中,通常使用两类主要的先验:"尖峰-平板" (spike-and-slab) 先验和收缩先验 (shrinkage priors)。我们在此总结这些替代方案,并指出感兴趣的读者可参阅 (Lu and Lou, 2022) 了解细节。
"尖峰-平板" 先验 (George and McCulloch, 1993; Mitchell and Beauchamp, 1988; Ishwaran and Rao, 2005; Narisetty and He, 2014; Malsiner-Walli and Wagner, 2016) 将每个回归系数建模为零处的点质量(强制排除——即"尖峰")和一个扩散的、通常较宽的高斯分布(即"平板")的混合,允许非零系数值:即,βⱼ ~ (1 - γⱼ)N(0, δ) + γⱼN(0, σ²),其中δ → 0,对于模型的每个协变量j。这种先验建模选择的例子包括吉布斯变量选择 (Dellaportas et al., 2002)、随机搜索变量选择 (SSVS) (George and McCulloch, 1993),以及Kuo和Mallick (1998) 的无条件混合先验,其中指示变量被直接引入回归模型。另一种策略,特别是在具有强相关预测变量的高维设置中特别有效,是基于贝叶斯因子回归模型 (West, 2003)。通过在因子载荷上放置诱导稀疏性的先验,这些稀疏潜因子模型能够有效选择相关变量 (Lucas et al., 2006; Carvalho et al., 2008)。
在连续收缩先验文献中,我们发现了贝叶斯Lasso (Cai et al., 2011)、马蹄铁先验 (Bhadra et al., 2019, 2021) 和Zellner的g先验 (Liang et al., 2008)。这些著名的例子将协变量选择视为一种收缩机制,将不相关的系数推向零——而不引入显式的包含指示变量。它们通常依赖于全局-局部收缩机制,以在单个预测变量水平上自适应地控制收缩量。非局部先验 (NLPs) 代表了连续收缩方法中一个值得注意的类别,由Johnson和Rossell (2010) 定义为当模型参数等于其零值时恰好为零的先验。NLPs被Johnson和Rossell (2012) 扩展到模型选择问题,在回归系数上引入了积矩 (pMoM) 和积逆矩 (piMoM) 先验。这些方法特别适合高维设置,并且已被适配到广义线性模型 (Rossell et al., 2013; Shin et al., 2018; Cao and Lee, 2024)。
在这项工作中,我们提出了一种基于GLM回归的完全共轭贝叶斯层次建模并带有协变量指示变量的GLM贝叶斯协变量选择方法。具体来说,我们扩展了GLM,给定p个协变量,使用一个二元随机向量z ∈ {0,1}ᵖ,其中每个指示变量zⱼ表示第j个协变量是否被包含 (zⱼ = 1) 或排除 (zⱼ = 0) 在线性预测器中。
GLM的广义线性预测器被定义为z和回归系数β乘积的函数,通过允许以概率方式直接包含/排除预测变量来扩展标准GLM协变量选择。回归系数β以z为条件进行建模,使用GLM的共轭先验,这些先验诱导的后验分布具有与先验相同的函数形式和相似的性质,这是贝叶斯推断中一个理想的性质。
对于后验推断,我们提出了一种基于完全共轭贝叶斯层次模型的高效吉布斯(Gibbs)采样算法,并提供了相应的R语言包实现。据我们所知,这是首个具有贝叶斯后验一致性保证的针对广义线性模型(GLMs)的完全共轭贝叶斯变量选择方法。
我们的贝叶斯GLM公式与早期的贝叶斯变量选择方法有相似之处,但在分析设计、理论性质和计算效率方面却是独一无二的。
Kuo和Mallick(1998)的工作与我们在回归方程中使用二元包含指示变量方面是相似的,而Dellaportas等人(2002)的层次框架与我们的层次建模也有相似之处。然而,这些工作都没有详细阐述GLM的完全共轭层次建模,也没有解决其贝叶斯推断过程的后验一致性问题。关于变量指示变量后验一致性的理论结果仅在收缩先验(Narisetty和He,2014)和高斯特定的“尖峰和平板”(spike and slab)先验(Narisetty等人,2019)下建立,而这些仅限于线性高斯回归模型。

总之,我们推导并分析了一个带有二元变量选择指示变量的完全贝叶斯层次GLM,它在一个单一连贯的框架内统一了众多贝叶斯变量选择的视角,通过利用Chen和Ibrahim(2003)的共轭先验结构,适用于指数族内的任何分布。我们就协变量选择指示变量 z 的后验渐近准确性和GLM回归系数 ββ 的后验一致性提供了理论证据,并为模拟和真实数据场景提供了相应的实证证据。

最后,我们在第5节中通过一系列数值实验评估了所提出方法的预测和推断性能,这些实验基于合成数据(第5.1节)和真实世界数据集(第5.2节)。关于后验推导、理论证明以及额外实验结果的更多细节置于附录中。
2 广义线性模型中的协变量选择








后验分布。 给定公式 (2) 中的模型和公式 (3) 中的共轭先验结构,我们要刻画所有模型参数的后验分布,这构成了在所提出的协变量选择模型下进行推断的基础:



关于后验计算的完整细节见附录 B,而关于如何从公式 (5)-(6) 进行采样的细节则在第 4 节给出。在公式 (8) 中,若保证先验共轭性,则 ττ 的后验分布与先验分布形式相同。
综上所述,这些闭式后验分布定义了一个用于后验推断的吉布斯(Gibbs)采样方案。附录 C 中的引理 4 表明,从该吉布斯采样方案中进行采样等价于从参数的联合后验分布中进行采样。





4 共轭 ββ 分布:计算与采样

4.1 GLM 共轭 ββ 分布的拉普拉斯近似



4.2 从 GLM 的共轭 ββ 分布中采样


5 实证评估
我们通过一系列数值实验,评估了所提出的、基于共轭后验的模型回归系数和指示变量推断的性能,实验既考虑了合成数据(我们可以获取真实值),也考虑了真实世界数据集,从而展示了所提出的贝叶斯变量选择过程的实际适用性。
5.1 合成数据实验






对于所有贝叶斯算法,使用所有参数上相同的先验,并且使用吉布斯采样(Gibbs Sampling)对未知量进行后验推断,迭代次数为 5000 次,预烧期(burn-in)为 10%。
我们在此展示泊松(Poisson)模型的结果——线性模型和逻辑斯蒂(Logistic)模型的实验见附录 D.2 和 D.3。
5.1.1 泊松回归的贝叶斯变量选择








5.2 真实数据实验
在本节中,我们通过在真实世界数据集上应用所提出的贝叶斯变量选择过程,来展示其实际适用性。具体而言,我们涵盖了泊松模型(第5.2.1节)、逻辑斯蒂模型(第5.2.2节)和线性模型(第5.2.3节)。
5.2.1 螃蟹数据集的泊松回归


为了评估预测准确性,我们计算了感兴趣测试集结果的平均绝对误差(MAE)和均方根误差(RootMSE)。跨折的误差分布总结在图 7 中。

5.2.2 心脏病数据集的 Logistic 模型
在本例中,我们在心脏病数据(Heart Disease Data)上评估了我们模型(BayesVS-GLM)的性能,这是一个提供与心脏病诊断相关医学指标的多变量数据集。该任务是一个二元分类任务,旨在基于可用的临床和人口统计学属性预测心脏病的存在或缺失。它包含 14 个属性(分类和连续变量)以及来自四个机构的 920 条患者记录 (Janosi et al., 1988)。




为了评估测试集上的预测准确性,我们使用了几个特定于分类任务的指标,即平衡准确率、检测流行率、检测率、F1分数、负预测值、正预测值、精确率、流行率、召回率、灵敏度和特异度。这些指标定义的详细信息可参见 Kuhn(2008)。图 9 报告了各折的平衡准确率和 F1 分数,而包含所有指标的更完整的表格见附录 E。

总体而言,与基线方法相比,BayesVS-GLM 获得了相当或略高的预测准确性,同时识别出的相关协变量与既定的临床发现一致(Rodriguez and Nafea, 2024; Teja and Rayalu, 2025)。
5.2.3 污染数据集的线性模型
在本例中,我们在 McDonald 污染数据集(McDonald Pollution Dataset)上评估了我们模型的性能,该数据集由 McDonald 和 Schwing (1973) 首次提出,常用于研究变量选择问题(参见例如 (O’hara and Sillanpää, 2009))。该数据集可在 [此处获取](注:原文此处似乎有链接缺失或截断)。



有关变量之间成对关联的更详细视图,请参见图 11,该图报告了在所有 MCMC 重复中包含的相对频率。

为了评估预测性能,我们报告了调整后的 R 平方(AdjR2)、平均绝对误差(MAE)和均方根误差(RMSE),这些指标是在 30 个交叉验证折上聚合得出的(图 12)。总体而言,与所比较的基线模型相比,BayesVS-GLM 获得了相当的预测准确性。

6 结论
我们介绍、分析并验证了一个贝叶斯层次共轭框架,用于在广义线性模型(GLMs)中同时进行变量选择和后验推断。
我们开发了一种吉布斯(Gibbs)采样器,利用 GLM 回归系数 ββ 和协变量指示变量 zz 的共轭先验,对潜指示变量和 GLM 参数进行高效的后验推断。

原文链接:https://arxiv.org/pdf/2606.24357