蛋白质作为生命体系中的基本构建块,其功能与活性高度依赖于其三维结构。然而,传统上基于序列信息的蛋白质设计方法难以全面捕捉蛋白质结构与功能之间的复杂关系。为了突破这一局限,研究人员不断探索整合结构信息以指导蛋白质设计与进化的新方法。
2024年7月5日,来自美国斯坦福大学的研究人员在Science上发表研究Unsupervised evolution of protein and antibody complexes with a structure-informed language model。
本文介绍了一种利用蛋白质结构骨架坐标增强的通用蛋白质语言模型(ESM-IF1),该模型展示了在无监督条件下指导蛋白质进化的能力,并在针对SARS-CoV-2病毒的治疗性抗体优化中取得了显著成果。该模型考虑的是最近许多功能强大的结构预测工具(包括AlphaFold和ESMFold)所执行任务的逆任务:根据目标结构预测序列。其方法是根据氨基酸序列(称为自回归模型)和整个结构的骨架坐标预测氨基酸的特征。因此,被结构信息语言模型赋予高似然比分数的序列有望以高置信度折叠到输入结构的骨架中。
图1 用结构引导语言模型指导多种蛋白质的进化
蛋白质进化的挑战与现状
在生物进化过程中,蛋白质通过不断积累突变来适应环境变化。这些突变不仅改变了蛋白质的序列,还导致了相应的结构变化,进而影响其功能。然而,实验室条件下的蛋白质进化过程面临诸多挑战,尤其是在通过逐步人工进化设计更优蛋白质时。
面临的挑战
结构分化趋势:随着蛋白质序列突变的增加,其结构往往趋向于分化,这对保持或增强蛋白质功能构成了障碍。
稳定性问题:逐步加入的突变有可能破坏蛋白质结构的稳定性,从而降低其可进化性。
有益突变识别困难:绝大多数突变对蛋白质功能是有害或中性的,只有极少数突变能显著提高其适应性。
结构增强的蛋白质语言模型
为了应对上述挑战,研究人员开发了一种利用蛋白质结构骨架坐标增强的通用蛋白质语言模型--ESM-IF1。该模型通过结合蛋白质序列和三维结构信息,能够在无监督条件下预测能够折叠成特定结构的序列,从而指导蛋白质的进化。
ESM-IF1模型在数百万个非冗余、单一序列结构对的序列恢复任务中进行了训练。它采用自回归模型架构,根据氨基酸序列和整个结构的骨架坐标预测后续氨基酸的特征。这种方法类似于AlphaFold和ESMFold等结构预测工具的逆过程:即给定一个目标结构,预测能够折叠成该结构的序列。
与传统的仅依赖序列信息的蛋白质设计方法相比,ESM-IF1模型具有以下优势:
研究结果
高功能蛋白质变体的序列探索
为了验证ESM-IF1模型在指导蛋白质进化方面的有效性,研究人员对来自四种生物不同家族的10个蛋白质进行了评估。这些蛋白质的功能涵盖了酶催化、肿瘤发生和转录调控等多个领域。研究人员通过计算这些蛋白质在大型深度突变扫描实验中的变异体的序列对数可能性,来评估模型预测的准确性。
结果显示,在排名前10的预测集合中,模型成功地从每个蛋白质的数千个测试变体中识别出了高匹配度的变体,其实验测定的活性在整个深度突变扫描筛选中排名靠前。这一结果表明,以结构信息为条件可以显著提高蛋白质语言模型的预测能力。
抗体突变效应预测
抗体作为重要的生物治疗药物,在临床应用中具有重要意义。为了分析ESM-IF1模型在抗体优化中的潜力,研究人员比较了三种抗体序列在整个突变图谱中的似然性和来自五个诱变数据集的相应实验适配值。
在所有五个实验结合数据集中,结构信息语言模型的表现均优于其他三种基于序列的方法。特别地,仅使用抗体骨架坐标补充序列信息就足以超越其他仅用序列的方法。这表明结构信息模型能够隐式地学习结合特征,并准确地预测抗体突变对结合亲和力的影响。
治疗性抗体的进化
为了进一步验证ESM-IF1模型的实用性,研究人员将其应用于两种针对SARS-CoV-2病毒的治疗性临床抗体的进化。这些抗体分别为LY-CoV1404和SA58,它们在初始阶段对原始病毒株和Omicron变异株均表现出良好的中和活性。然而,随着病毒的不断进化,特别是BQ.1.1和XBB.1.5等逃逸变体的出现,这些抗体的疗效逐渐减弱。
通过ESM-IF1模型的指导,研究人员筛选并测试了约30种抗体变体。结果显示,这些变体对BQ.1.1和XBB.1.5等逃逸变体的中和能力和亲和力分别提高了25倍和37倍。特别地,通过组合多个有益突变,研究人员进一步提高了抗体的中和效力。这些结果充分展示了ESM-IF1模型在指导治疗性抗体进化方面的巨大潜力。
图2 利用结构信息语言模型进化抗体,提高中和效力和复原力
讨论与展望
发现能改善蛋白质功能的突变本身就具有挑战性,因为序列搜索空间大,而且序列与功能之间的关系规则复杂,如稳定性或环境选择压力。本文的研究表明,利用蛋白质的序列和骨架结构坐标建立的反折叠蛋白质语言模型可以作为改进的先验知识,从而大大提高定向进化的效率。结构引导的方法可以间接地研究蛋白质的适应性景观,而不需要明确地对单个功能任务或特性进行建模,从而使其广泛适用于从酶催化到抗生素和化疗抗性等不同环境中的蛋白质。
此外,本研究还证明,尽管结构信息语言模型只在单链蛋白质上进行过训练,但通过其隐含学习结合特征的能力,ESM-IF1模型可以推广到多聚体蛋白质。考虑到该模型无法获取氨基酸侧链原子、坐标或键信息,这一结果尤其值得注意。有了这些能力,研究人员进化出了临床治疗用抗体,并确定了几种能协同提高抗体效价和抵御新出现变体的突变。在大流行病和紧急使用情况下,单克隆抗体疗法的供应有限,而且很容易受到病毒进化产生的抗药性的影响,因此利用通用方法快速提高抗体效力的能力会对临床和经济产生重大影响。
总的来说,本研究的方法不仅为蛋白质工程提供了一种新的高效工具,还为未来基于结构的蛋白质设计和进化研究开辟了新途径。
参考资料:
https://www.science.org/doi/10.1126/science.adk8946