
DRUGONE
错义突变是影响人类疾病表型的重要遗传因素,但其具体表型后果仍然难以系统解析。研究人员提出了一种基于深度学习的计算框架 PheMART,用于预测错义突变的临床表型影响。该方法整合了蛋白语言模型、蛋白互作网络、蛋白结构域信息、医学知识图谱以及电子健康记录数据,通过对比学习将突变与4,179种临床表型映射到统一的低维空间中,使其距离反映临床相关性。
实验结果表明,该方法显著优于现有模型,并能够有效辅助罕见病诊断,准确定位致病突变及对应疾病。研究人员还构建了一个大规模资源库,提供超过510万个潜在致病突变的表型预测,为遗传学研究与临床应用提供重要支持。

错义突变在单基因疾病中具有核心作用,对人类健康造成显著影响。随着测序技术的发展,已经发现了数以亿计的错义突变,但其中绝大多数的表型影响仍然未知,大量变异被归类为“意义未明变异”。
目前主流的两类方法各有局限。一类是基因组关联分析,虽然可以发现常见变异与表型之间的统计关系,但由于错义突变通常较为罕见,这类方法难以有效捕捉其效应。另一类方法是通过实验或计算评估突变对蛋白功能的影响,这类方法往往只能判断“有害或无害”,而无法提供具体的临床表型信息。
然而,在真实生物系统中,一个基因往往对应多个表型,呈现显著的多效性。因此,仅预测致病性而忽略具体表型,严重限制了其在临床中的应用价值。
基于这一问题,研究人员提出:是否可以构建一个统一模型,直接从突变预测其具体临床表型,而不仅仅是致病性判断。
方法
研究人员构建了PheMART框架,通过整合多源数据实现突变与表型的联合建模。对于突变,利用蛋白语言模型提取序列与结构特征,并通过变异编码模块将突变与野生型蛋白进行对比,从而捕捉细微功能差异;对于表型,则结合医学知识图谱和电子健康记录数据构建表型表示,刻画其语义关系。
随后,通过对比学习将突变与表型映射到同一嵌入空间,使真实关联的突变–表型对在空间中距离更近,从而实现对未知关系的预测。

图1:PheMART整体框架与联合嵌入空间。
结果
PheMART总体框架与建模思想
PheMART通过联合嵌入学习,将突变与表型映射到统一空间,实现从“突变→表型”的直接预测。模型同时解决三个关键问题:一是区分同一蛋白不同突变的细微差异,二是理解表型之间复杂的语义关系,三是在数据稀疏条件下学习大规模关联。
该框架的核心创新在于,将多模态生物信息与临床语义统一到一个对比学习框架中,从而实现跨层级信息融合。
模型性能显著优于现有方法
在多种评估设置下,PheMART均表现出领先性能。在基于ClinVar数据的交叉验证中,其auROC达到0.972,在排序指标上也显著优于对比方法。
进一步分析表明,对比学习在提升模型性能中起关键作用,而多源信息融合进一步增强了模型的判别能力。这些性能提升对于临床实践具有重要意义,因为它们直接关系到突变解释效率和诊断准确性。

图2:模型性能比较与验证结果。
模型具有良好的泛化能力
在时间外验证和外部数据库验证中,PheMART依然保持较高准确性。对于新近注释的突变,其预测结果与最新临床报告高度一致;在HGMD数据集上,同样表现出稳定的性能优势。
这表明模型不仅能够记忆已有知识,还具备对未知突变进行合理推断的能力。
模型预测与生物学机制高度一致
研究人员进一步分析模型预测结果与已知生物学规律之间的关系。结果发现,不同蛋白结构域的突变与特定表型之间存在清晰对应关系,例如离子通道相关结构域主要关联神经和循环系统疾病,而线粒体相关结构域则与代谢和呼吸系统疾病相关。
此外,模型还能够识别潜在的新功能区域,例如在某些蛋白中发现此前未被注释但高度富集致病突变的区域。这说明模型不仅能够复现已知知识,还具有发现新机制的潜力。

图3:蛋白结构域与表型关联分析。
基因层面与通路层面验证
通过对基因层面进行富集分析,研究人员发现模型预测的突变集合在相关生物通路中显著富集。例如神经系统疾病相关突变集中于突触功能和神经发育通路,代谢疾病则集中于线粒体功能相关通路。
这些结果进一步证明了模型预测具有生物学合理性。
支持罕见病诊断与致病突变定位
在真实临床数据中,PheMART能够有效辅助诊断。对于已知病例,模型能够在超过一半的情况下将真实致病突变排在第一位,并在大多数情况下进入前三。
在诊断任务中,模型还能够从数千种候选疾病中准确筛选出最可能的诊断结果,显著优于现有方法。这表明该方法具有直接临床应用价值。

图4:罕见病诊断与变异定位流程。
构建大规模表型预测资源
研究人员进一步对超过500万个潜在致病突变进行预测,构建了一个系统性资源库。分析显示,这些突变广泛分布于不同疾病类别,并揭示了大量此前未被记录的基因–表型关系。
这些预测不仅扩展了现有知识边界,也为未来研究提供了重要线索。

图5:大规模突变–表型资源与分布。
讨论
本研究提出了一种从“突变→表型”的新范式,突破了传统仅预测致病性的局限,实现了更加细粒度的临床解释。通过整合蛋白结构信息、分子网络和临床语义信息,PheMART能够在复杂生物系统中建立多层级关联。
与传统方法相比,该方法不依赖群体统计数据,也不局限于蛋白功能层面,而是直接面向临床表型,显著提升了其实用价值。
尽管如此,模型性能仍然受到数据质量和表型标注完整性的影响。此外,一些预测的表型可能尚未在患者中表现出来,这既是挑战,也意味着模型可以用于疾病风险预测。
总体而言,PheMART为理解遗传变异的表型效应提供了一种统一而强大的工具,为精准医学、罕见病诊断以及疾病机制研究开辟了新的方向。
整理 | DrugOne团队
参考资料
Wen, J., Zeng, S., Bonzel, CL. et al. Phenotypic prediction of missense variants via deep contrastive learning. Nat. Biomed. Eng (2026).
https://doi.org/10.1038/s41551-026-01636-4