天意云导读:
科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM)的起源、发展及其尚待解决的问题。
就像单词组成句子一样,蛋白质序列(由20种氨基酸组成的字符串)决定了蛋白质在其环境中的结构和功能。氨基酸的排序至关重要,因为它影响蛋白质在生物系统中的折叠和相互作用方式。
与人类语言类似,蛋白质也由基序和结构域等模块化元素组成。这些基本构建块通过不同组合构建复杂结构。在这个类比中,蛋白质基序和结构域类似于“单词”和“短语”,它们的生物学功能就像句子所传达的“意义”。
引用原文地址:https://www.apoorva-srinivasan.com/plms/
另一个关键平行点是信息完整性。尽管蛋白质不仅仅是其氨基酸序列,它们形成执行特定功能的结构,但所有这些方面都由序列预先决定。蛋白质的行为可能因环境和与其他分子的相互作用(如细胞状态、其他分子和翻译后修饰)而异,但其基础序列仍然决定其信息(如结构)。
需要注意的是,NLP和蛋白质语言建模之间的类比仅限于此。我们可以阅读和理解自然语言,而不是蛋白质。人类语言有统一的标点符号和停用词,具有清晰可分离的结构。而蛋白质缺乏清晰的词汇,氨基酸序列是否是功能单元(如结构域)的一部分并不总是明确。此外,蛋白质长度高度可变,从20到几千个氨基酸不等。
许多pLM(蛋白质语言模型)的初始工作基于仅编码器的Transformer架构,旨在为下游任务中获得蛋白质的嵌入表示。
这些模型大多采用类似BERT的架构和去噪自动编码训练目标,即通过破坏输入标记并尝试重建原始序列来进行预训练。此类模型的示例包括TCR-BERT、epiBERTope、ESM、ProtTrans和ProteinBERT。在生成嵌入后,这些模型通过监督学习技术进一步优化,以解决蛋白质工程中的各种下游任务,如二级结构和接触预测、远程同源检测以及翻译后和生物物理特性预测。
与编码器模型不同,解码器模型采用自回归训练,这种方法通过给定上下文预测后续单词。最著名的此类模型是GPT-x模型。
在蛋白质领域,早期的GPT风格解码器模型例子是ProtGPT2。它在5000万序列上训练,参数量为738M。
ProtGPT2成功生成了具有与天然蛋白质相似特征的序列。其氨基酸类型和频率与自然界中的非常接近,序列在有序(稳定)和无序(柔性)区域之间表现出平衡。结构叠加的目视检查表明,生成的蛋白质保留了一些关键的结合位点。然而,尽管这些生成的序列看起来像天然蛋白质,但是否真的具备相应功能仍不确定。ProtGPT2很快被更大、更强的模型所取代。
虽然 ProGPT2 利用类似 GPT2 的架构来生成一般蛋白质序列,但已经开发了更新的方法,在训练阶段整合了更深层次的生物学背景。这些方法确保所学的模式不仅在统计学上是正确的,而且在生物学上也是有意义的。蛋白质模型可以通过两种主要方式进行调节:
i)通过序列进行调节
ii)通过调节蛋白质的结构。
随着NLP技术的进步,CTRL迅速适应了2.81亿个蛋白质序列的数据集,生成的模型名为ProGen。ProGen使用UniProtKB关键字作为条件标签,涵盖“生物过程”、“细胞成分”和“分子功能”等十个类别,共1100多个术语。ProGen的困惑度与高质量英语语言模型相当,即使在为未包含在其训练集中的蛋白质家族生成序列时也是如此。
ProGen的性能表明,我们在设计与天然蛋白质相似的蛋白质方面取得了重大进展。该模型已经成功地创建了有效运作的蛋白质序列,通过严格测试,其性能与天然存在的蛋白质一样好或更好。具体而言,ProGen能够:
现在,ProGen的能力更强大了。根据Profluent Bio的最新研究,他们使用ProGen设计了Cas9蛋白,这种蛋白在自然界中并不存在,但能在人类中成功编辑基因。这表明我们现在可以设计合成蛋白质,不仅能模仿天然蛋白质,还能加以改进。我期待未来有更多这样的突破。
除了序列之外,我们还可以在训练时合并蛋白质的结构,以便模型可以学习从结构到序列的映射。这被称为“逆折叠”,因为它与蛋白质折叠的顺序(从序列到结构)相反。
虽然这听起来违反直觉,但实际上是一种非常有用的蛋白质设计方法,特别是用于酶和治疗性蛋白质。假设你希望你的酶或治疗性蛋白质执行某项特定任务,例如与某个分子结合或催化特定反应。传统方法通常涉及调整现有的蛋白质序列,然后测试新版本是否能更好地完成任务。这过程可能很慢且依赖于运气。
逆折叠方法则从理想结构开始——即你预测的最适合执行任务的结构。然后,它向后工作,确定哪些序列可以折叠成该结构。这种方法有几个优点。首先,逆折叠模型通常非常快速,可以在几分钟内预测出数百个可能折叠成所需结构的序列。其次,它能够探索比传统方法更广泛的潜在序列,而传统方法可能只会略微改变现有序列。这种广泛的探索增加了找到最佳特性序列的机会,这些序列可能以前从未考虑过。
ESM-IF是一个例子,它是在AlphaFold数据库(包含1200万个结构)和CATH蛋白质结构分类数据库(约16000个结构)上训练的逆折叠模型。该模型使用编码器-解码器架构,将结构作为编码器的输入,并通过自动回归解码生成与结构对应的序列。
随着计算能力、数据量和模型规模的增加,通用语言模型在复杂任务上的表现显著提升。在某些规模上,语言模型展现出了有用的功能,如小样本语言翻译、常识推理和数学推理,这些都是将简单训练过程扩展到大型数据语料库的结果。
生物学中的序列推断也有类似的概念。由于蛋白质的结构和功能通过进化选择限制了其序列的突变,因此也可以从序列模式中推断出生物学结构和功能,从而为一些最基本的生物学问题提供见解。
这正是Meta构建的150亿参数模型ESM-2所做的。
通过扩大模型和数据集的规模,我们可以避免特定的归纳偏差(如MSA),仅使用单个序列作为输入进行结构预测。虽然ESM-2的准确性不如目前的AlphaFold,但它展示了一种有趣且简单的方法,能够利用不断扩大的多样化和未注释的蛋白质序列数据池。
为了展示ESM蛋白质模型的惊人能力,研究人员进行了一项非凡的实验,使用高度优化的单克隆抗体,针对埃博拉和COVID等疾病。他们将这些抗体的序列输入ESM模型,并比较实际氨基酸序列与预测结果的差异。通过选择性地将这些差异位点的氨基酸替换为模型预测的氨基酸,研究人员显著增强了抗体的结合亲和力、热稳定性和体外效力——成熟抗体的增幅高达七倍,未成熟抗体的增幅达到惊人的160倍。
尽管我们在使用LLM大语言模型GPT探索蛋白质序列空间上取得了重大进展,但完全掌握其复杂性仍处于早期阶段。传统方法依赖成对或多序列比对,基于假定的进化联系映射残基。最近,更注重蛋白质基本功能和结构的方法出现,如果这一进展继续,我们将有望实现突破性发现,揭示蛋白质的未知方面,甚至合成新蛋白质。
一个挑战是缺乏对这些模型的可解释性。随着模型变得复杂,了解它们如何处理和表示蛋白质序列至关重要,特别是在药物发现中。蛋白质建模的下一步是开发更多受生物学启发的模型,深化生化知识的整合,提高准确性和功能。通过在模型训练和数据处理中嵌入更深刻的生物学见解,我们可以显著改善蛋白质相关任务的结果。