前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >GPT进入蛋白质组学:LLM如何推动生命科学变革

GPT进入蛋白质组学:LLM如何推动生命科学变革

作者头像
用户11203141
发布2025-03-06 13:18:19
发布2025-03-06 13:18:19
750
举报

天意云导读:

科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM)的起源、发展及其尚待解决的问题。

The language of proteins蛋白质的语言

就像单词组成句子一样,蛋白质序列(由20种氨基酸组成的字符串)决定了蛋白质在其环境中的结构和功能。氨基酸的排序至关重要,因为它影响蛋白质在生物系统中的折叠和相互作用方式。

与人类语言类似,蛋白质也由基序和结构域等模块化元素组成。这些基本构建块通过不同组合构建复杂结构。在这个类比中,蛋白质基序和结构域类似于“单词”和“短语”,它们的生物学功能就像句子所传达的“意义”。

引用原文地址:https://www.apoorva-srinivasan.com/plms/

另一个关键平行点是信息完整性。尽管蛋白质不仅仅是其氨基酸序列,它们形成执行特定功能的结构,但所有这些方面都由序列预先决定。蛋白质的行为可能因环境和与其他分子的相互作用(如细胞状态、其他分子和翻译后修饰)而异,但其基础序列仍然决定其信息(如结构)。

需要注意的是,NLP和蛋白质语言建模之间的类比仅限于此。我们可以阅读和理解自然语言,而不是蛋白质。人类语言有统一的标点符号和停用词,具有清晰可分离的结构。而蛋白质缺乏清晰的词汇,氨基酸序列是否是功能单元(如结构域)的一部分并不总是明确。此外,蛋白质长度高度可变,从20到几千个氨基酸不等。

Protein language model architectures蛋白质语言模型架构

Encoder models 编码器型号

许多pLM(蛋白质语言模型)的初始工作基于仅编码器的Transformer架构,旨在为下游任务中获得蛋白质的嵌入表示。

这些模型大多采用类似BERT的架构和去噪自动编码训练目标,即通过破坏输入标记并尝试重建原始序列来进行预训练。此类模型的示例包括TCR-BERT、epiBERTope、ESM、ProtTrans和ProteinBERT。在生成嵌入后,这些模型通过监督学习技术进一步优化,以解决蛋白质工程中的各种下游任务,如二级结构和接触预测、远程同源检测以及翻译后和生物物理特性预测。

Decoder models 解码器型号

与编码器模型不同,解码器模型采用自回归训练,这种方法通过给定上下文预测后续单词。最著名的此类模型是GPT-x模型。

在蛋白质领域,早期的GPT风格解码器模型例子是ProtGPT2。它在5000万序列上训练,参数量为738M。

ProtGPT2成功生成了具有与天然蛋白质相似特征的序列。其氨基酸类型和频率与自然界中的非常接近,序列在有序(稳定)和无序(柔性)区域之间表现出平衡。结构叠加的目视检查表明,生成的蛋白质保留了一些关键的结合位点。然而,尽管这些生成的序列看起来像天然蛋白质,但是否真的具备相应功能仍不确定。ProtGPT2很快被更大、更强的模型所取代。

Conditional transformers 条件变压器

虽然 ProGPT2 利用类似 GPT2 的架构来生成一般蛋白质序列,但已经开发了更新的方法,在训练阶段整合了更深层次的生物学背景。这些方法确保所学的模式不仅在统计学上是正确的,而且在生物学上也是有意义的。蛋白质模型可以通过两种主要方式进行调节:

i)通过序列进行调节

ii)通过调节蛋白质的结构。

Conditioning on sequence: 顺序调节

条件 Transformer 语言(CTRL)是一种包含条件标签的自回归模型,其发展标志着自然语言处理(NLP)的重大进步。这些标签允许在不需要输入序列的情况下生成有针对性的文本,被称为控制代码,显著细化了对流派、主题或风格的影响,极大地推动了有针对性的文本生成。

随着NLP技术的进步,CTRL迅速适应了2.81亿个蛋白质序列的数据集,生成的模型名为ProGen。ProGen使用UniProtKB关键字作为条件标签,涵盖“生物过程”、“细胞成分”和“分子功能”等十个类别,共1100多个术语。ProGen的困惑度与高质量英语语言模型相当,即使在为未包含在其训练集中的蛋白质家族生成序列时也是如此。

ProGen的性能表明,我们在设计与天然蛋白质相似的蛋白质方面取得了重大进展。该模型已经成功地创建了有效运作的蛋白质序列,通过严格测试,其性能与天然存在的蛋白质一样好或更好。具体而言,ProGen能够:

  • 创造与天然蛋白质的能量效率和结构精度相匹配的蛋白质。
  • 生成特定蛋白质结构域的变异,这些变异被证明比随机变异更有效,显示出在实际应用中的高度预测准确性和实用性。

现在,ProGen的能力更强大了。根据Profluent Bio的最新研究,他们使用ProGen设计了Cas9蛋白,这种蛋白在自然界中并不存在,但能在人类中成功编辑基因。这表明我们现在可以设计合成蛋白质,不仅能模仿天然蛋白质,还能加以改进。我期待未来有更多这样的突破。

Conditioning on structure: 结构条件

除了序列之外,我们还可以在训练时合并蛋白质的结构,以便模型可以学习从结构到序列的映射。这被称为“逆折叠”,因为它与蛋白质折叠的顺序(从序列到结构)相反。

虽然这听起来违反直觉,但实际上是一种非常有用的蛋白质设计方法,特别是用于酶和治疗性蛋白质。假设你希望你的酶或治疗性蛋白质执行某项特定任务,例如与某个分子结合或催化特定反应。传统方法通常涉及调整现有的蛋白质序列,然后测试新版本是否能更好地完成任务。这过程可能很慢且依赖于运气。

逆折叠方法则从理想结构开始——即你预测的最适合执行任务的结构。然后,它向后工作,确定哪些序列可以折叠成该结构。这种方法有几个优点。首先,逆折叠模型通常非常快速,可以在几分钟内预测出数百个可能折叠成所需结构的序列。其次,它能够探索比传统方法更广泛的潜在序列,而传统方法可能只会略微改变现有序列。这种广泛的探索增加了找到最佳特性序列的机会,这些序列可能以前从未考虑过。

ESM-IF是一个例子,它是在AlphaFold数据库(包含1200万个结构)和CATH蛋白质结构分类数据库(约16000个结构)上训练的逆折叠模型。该模型使用编码器-解码器架构,将结构作为编码器的输入,并通过自动回归解码生成与结构对应的序列。

Scale is all you need 扩展

随着计算能力、数据量和模型规模的增加,通用语言模型在复杂任务上的表现显著提升。在某些规模上,语言模型展现出了有用的功能,如小样本语言翻译、常识推理和数学推理,这些都是将简单训练过程扩展到大型数据语料库的结果。

生物学中的序列推断也有类似的概念。由于蛋白质的结构和功能通过进化选择限制了其序列的突变,因此也可以从序列模式中推断出生物学结构和功能,从而为一些最基本的生物学问题提供见解。

这正是Meta构建的150亿参数模型ESM-2所做的。

通过扩大模型和数据集的规模,我们可以避免特定的归纳偏差(如MSA),仅使用单个序列作为输入进行结构预测。虽然ESM-2的准确性不如目前的AlphaFold,但它展示了一种有趣且简单的方法,能够利用不断扩大的多样化和未注释的蛋白质序列数据池。

为了展示ESM蛋白质模型的惊人能力,研究人员进行了一项非凡的实验,使用高度优化的单克隆抗体,针对埃博拉和COVID等疾病。他们将这些抗体的序列输入ESM模型,并比较实际氨基酸序列与预测结果的差异。通过选择性地将这些差异位点的氨基酸替换为模型预测的氨基酸,研究人员显著增强了抗体的结合亲和力、热稳定性和体外效力——成熟抗体的增幅高达七倍,未成熟抗体的增幅达到惊人的160倍。

Conclusion 结论

尽管我们在使用LLM大语言模型GPT探索蛋白质序列空间上取得了重大进展,但完全掌握其复杂性仍处于早期阶段。传统方法依赖成对或多序列比对,基于假定的进化联系映射残基。最近,更注重蛋白质基本功能和结构的方法出现,如果这一进展继续,我们将有望实现突破性发现,揭示蛋白质的未知方面,甚至合成新蛋白质。

一个挑战是缺乏对这些模型的可解释性。随着模型变得复杂,了解它们如何处理和表示蛋白质序列至关重要,特别是在药物发现中。蛋白质建模的下一步是开发更多受生物学启发的模型,深化生化知识的整合,提高准确性和功能。通过在模型训练和数据处理中嵌入更深刻的生物学见解,我们可以显著改善蛋白质相关任务的结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信俱乐部 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • The language of proteins蛋白质的语言
  • Protein language model architectures蛋白质语言模型架构
  • Encoder models 编码器型号
  • Decoder models 解码器型号
  • Conditional transformers 条件变压器
    • Conditioning on sequence: 顺序调节
    • 条件 Transformer 语言(CTRL)是一种包含条件标签的自回归模型,其发展标志着自然语言处理(NLP)的重大进步。这些标签允许在不需要输入序列的情况下生成有针对性的文本,被称为控制代码,显著细化了对流派、主题或风格的影响,极大地推动了有针对性的文本生成。
    • Conditioning on structure: 结构条件
  • Scale is all you need 扩展
  • Conclusion 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档