Nat. Commun. | 覆盖1560种疾病！中科大/阿里巴巴等团队开发综合性生物医学预测和风险评估模型UKB-MDRMF

DrugAI

发布于 2025-05-01 14:22:08

1360

文章被收录于专栏：DrugAIDrugAI

近日，中国科学技术大学团队、阿里巴巴团队联合美国北卡罗来纳大学团队，通过整合来自英国生物银行的多模态数据，提出了可预测和评估1560种疾病健康风险的综合框架UKB-MDRMF。与单一疾病模型不同，UKB-MDRMF结合了多发病机制，具有更高的预测准确性，在所有疾病类型的风险评估中都表现更好。研究团队利用UKB-MDRMF预测和评估了多种疾病，有效揭示了风险因素和疾病之间的共同和独特联系，为健康和多病机制提供了更广阔的视角。

同时，研究团队简化了从数据输入到模型构建的整个过程，增强了跨各种下游任务使用UKB-MDRMF框架的灵活性和便利性，并开发了一个互动平台（https://luminite.shinyapps.io/ukb-mdrmf/）来展示UKB-MDRMF的详细结果，允许探索疾病预测以及特定风险因素和疾病类别的合并症。

个人的健康受生活方式、环境、遗传学以及医疗卫生服务等因素的影响。目前，已有多项研究对某特定疾病或某一类型疾病进行了大型的生物医学预测或评估研究，这些数据的快速积累为探索疾病机制、危险因素和预后标志物提供了大量资源，但疾病的覆盖范围仍然不足。通过将多维健康信息与各种疾病类型相结合，可以更准确的预测和更深入分析个体的健康状况，并理解不同疾病风险因素以及疾病之间的复杂联系。

基于UK Biobank的数据，研究团队开发了一个全面的标准化流程来构建UKB-MDRMF框架，包括数据预处理、模型构建和应用程序。UKB-MDRMF包括基本信息、生活方式、检测、环境因素、遗传学和影像数据，是一个用于多种疾病联合预测和风险评估的综合性生物医学模型，可对1560种疾病进行个体多疾病预测和健康风险评估。

图：UKB-MDRMF构建流程

数据预处理

数据预处理包括分别构建和处理预测因子和反应变量。研究团队将输入数据分为六类，从易到难逐步进行建模和分析，最终获得了1106个输入变量，其中几种表型在预处理过程中产生了多个变量。同时，研究团队还考虑了数据缺失问题，并适当地处理了缺失值，获得了准确和可解释的插补结果。对于反应变量，研究使用了1560个苯丙氨酸氨基转移酶代码来系统地总结疾病。

模型构建

UKB-MDRMF的模型构建关注了个体疾病预测和风险评估。对预测因子类型，研究从基本信息变量开始，逐渐结合不同的特征类型，最终包括遗传变量。在疾病预测任务中，研究人员评估了各种方法，包括逻辑回归、随机森林、XGBoost、LightGBM、FCNN。不同疾病预测模型在各数据类别中的结果显示，FCNN模型表现最好，在增加数据后，总体中值AUC超过0.7。传统的非参数机器学习方法在多任务学习中表现中等。随着更多的特征信息用于预测，所有模型的预测精度不断提高。对于罕见病，CATI和FCNN的AUC较高，对于常见疾病，CATI、FCNN和逻辑回归均表现良好。

各种类型疾病的预测准确性揭示了口腔和肠道疾病具有相对较低的AUC值。相比之下，与生殖系统相关的疾病表现出明显较高的预测准确性，妊娠相关疾病的AUC超过0.95，生殖器疾病的AUC超过0.8。

图：跨数据类别、疾病类型和流行水平的疾病预测和生存模型的比较性能。

风险评估过程同样遵循每一类预测因子的逐步增加策略，研究使用了传统的Cox比例风险模型、DeepSurv以及POPDxSurv等高级模型。在四个生存模型中，DeepSurv的表现优于其他模型，其次是CATISurv。相比之下，POPDxSurv的性能相对较差，需要所有六个数据类别作为输入才能获得更好的预测结果。此外，CoxPH模型的准确性随着更多阳性病例的出现而提高，深度学习方法在罕见和常见疾病中的表现一直优于DeepSurv。

对于几乎所有疾病类型，疾病预测和生存模型都随着更多的数据类别而改善。在增加生活方式、检测和影像数据变量后，模型性能显著改善。对于疾病预测任务，生活方式和影像学变量对90.5%和100%疾病类型的显著表现改善有贡献，平均AUC分别增加2.3%和2.4%。相比之下，环境和遗传学变量产生的改善较少。通过增加消化和神经疾病的生活方式变量，模型性能实现了显著改善；对于生殖疾病，仅使用基本信息就获得了高度准确的预测。

图：采用FCNN和DeepSurv的不同疾病类型的模型性能图。

模型验证

研究团队对UKB-MDRMF和几种现有方法进行了比较分析，发现UKB-MDRMF利用不同的数据类型，对特定疾病表现出优越的预测性能。

此外，研究通过UKB-MDRMF分析危险因素，评估了各种疾病的特征影响。结果显示，基本信息对妊娠、血管和生殖器疾病最有预测性。生活方式变量对妊娠和皮质神经疾病有意义，而检测变量影响生殖器疾病。环境变量影响上呼吸道疾病，影像变量影响心脏、血液和泌尿系统疾病，遗传学变量对几种疾病的影响相对一致，如心脏和眼睛疾病。同时，某些变量对疾病结果有着总体积极和消极影响。例如“躁郁症或抑郁症”的消失降低了所有疾病的发病率。相反，腰围、体重指数、胆固醇和尿微量白蛋白的增加会促进各种疾病的发生。

为了突出疾病预测和风险评估模型之间重要性的相似性和差异，研究团队比较了表现最好的FCNN和DeepSurv模型的前十个变量。在预测和生存模型的重要性指标中观察到相似性，如影像相关、抑郁相关、脂肪相关和年龄相关变量。

最后，研究团队利用All of Us研究数据对UKB-MDRMF框架进行了验证，强调了该模型的稳健性及其在分析不同人群多病性方面的适应性和潜力。

结语

UKB-MDRMF为利用大规模生物医学数据进行分析和建模提供了高效灵活的解决方案，可联合预测和评估数千种疾病。结果表明，UKB-MDRMF超越了单一疾病模型，有效地揭示了多种风险因素和疾病之间以及疾病本身之间的潜在联系，并产生了优越的预测性能。

UKB-MDRMF通过为多种疾病预测、风险评估和多样化应用提供全面的解决方案，代表了该领域的重大进步，有望为医疗保健系统做出重大贡献。多种疾病的联合建模增强了表征多种疾病模式的能力，提供了对疾病如何共存的数据驱动探索，并揭示了大规模生物医学数据集内疾病之间相互联系和影响的潜在机制，为更有针对性和个性化的患者护理方法铺平了道路。

论文原文：

Jiang, Y., Zhao, B., Wang, X. et al. UKB-MDRMF: a multi-disease risk and multimorbidity framework based on UK biobank data. Nat Commun 16, 3767 (2025). https://doi.org/10.1038/s41467-025-58724-3

·END·

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-04-30，如有侵权请联系 cloudcommunity@tencent.com 删除

开发