在精准医学和蛋白质工程领域,准确预测突变的功能效应至关重要。例如,在靶向癌症治疗中,某些药物只有在突变导致酶活性增加时才能使用。然而,传统的致病性预测方法无法精确量化突变的功能效应,如酶活性的变化。为了解决这一挑战,Moritz Glaser和Johannes Brägelmann开发了一种名为ESM-Effect的新型预测框架,专门用于准确预测突变的功能效应。
突变的功能效应预测与传统的致病性预测不同。致病性预测通常将突变分为“良性”或“致病性”,但这种分类过于简化,无法涵盖突变可能产生的多样化功能效应。例如,一个突变可能增加或减少酶的活性,或者改变离子通道的亲和力。这些复杂的功能效应对于精准医学和蛋白质工程至关重要,但目前的方法在准确性和效率上仍有待提高。
ESM-Effect基于ESM2蛋白质语言模型(PLM),通过微调(fine-tuning)和特定的回归头(regression head)设计,实现了对突变功能效应的高精度预测。该框架的核心优势在于:
ESM-Effect通过微调ESM2模型,使其能够更好地适应特定的功能效应预测任务。研究发现,微调的嵌入向量(embeddings)比静态嵌入向量表现更好,表明微调是提高预测性能的关键。
ESM-Effect采用了基于突变位置的回归头设计,强调突变效应相对于野生型序列的变化,并且突变的影响在突变位置最为显著。这种设计不仅提高了预测的准确性,还减少了计算成本。
与现有的多模态方法(如PreMode)相比,ESM-Effect在多个深突变扫描(DMS)数据集上表现出色,不仅预测精度更高,而且训练速度提升了6.7倍。此外,ESM-Effect不需要复杂的预处理和多模态数据(如蛋白质结构和多序列比对),大大简化了模型的训练过程。
ESM-Effect在多个DMS数据集上的表现如下表所示,其Spearman相关系数和相对Bin-Mean Error(rBME)均优于或接近现有的最先进方法:
数据集 | ESM-Effect (优化版) | PreMode |
---|---|---|
ASPA: 酶活性 | 0.738 | 0.746 |
CYP2C9: 酶活性 | 0.830 | 0.820 |
NUDT15: 酶活性 | 0.661 | 0.636 |
PTEN: 酶活性 | 0.602 | 0.597 |
PTEN: 稳定性 | 0.718 | 0.703 |
SNCA: 酶活性 | 0.646 | 0.617 |
从上表可以看出,ESM-Effect在大多数数据集上都取得了与PreMode相当甚至更好的结果,尤其是在PTEN和SNCA数据集上,ESM-Effect的rBME显著低于PreMode,表明其在预测罕见但重要的功能效应方面具有更强的能力。
尽管ESM-Effect在功能效应预测方面取得了显著进展,但其在不同蛋白质区域的泛化能力仍有限。例如,在SNCA蛋白的无序区域,模型的预测性能显著下降。这表明,未来的研究需要进一步探索如何提高模型在不同生物背景下的泛化能力,从而为精准医学和蛋白质工程提供更可靠的预测工具。
文章: https://doi.org/10.1101/2025.02.03.635741
代码: https://github.com/moritzgls/ESM-Effect