InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令

DrugAI

发布于 2024-06-04 19:11:20

1650

发布于 2024-06-04 19:11:20

文章被收录于专栏：DrugAI

今天为大家介绍的是来自之江实验室、浙江大学、南京师范大学、香港中文大学、清华大学、阿里巴巴团队的一篇论文。大型语言模型以其在捕捉复杂模式（包括共同进化关系和潜在的蛋白质语言）方面的有效性而著称。然而，当前的方法通常难以展示基因组插入、复制和插入/缺失（indels）的出现，而这些因素占人类致病性突变的约14%。鉴于结构决定功能，结构相似的突变蛋白更有可能在生物进化中保存下来。受此启发，作者利用受大型语言模型启发的跨模态对齐（cross-modality alignment）和指令微调（instruct fine-tuning）技术，将生成式蛋白质语言模型与蛋白质结构指令对齐。具体而言，我们提出了一种生成可变长度和多样化蛋白质的方法，以探索和模拟生命的复杂进化，从而扩大蛋白质工程的选择范围。作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。在天然蛋白质主链上，它实现了2.68的困惑度（perplexity）和57.51的序列恢复率（sequence recovery rate），分别比ProteinMPNN高39.2%和25.1%。此外，作者通过重新设计PETase和L-MDH验证了模型的有效性。对于PETase，所有设计的15个可变长度的PETase都表现出解聚活性，其中11个超过了野生型的活性水平。对于L-MDH，一种缺乏实验确定结构的酶，InstructPLM能够设计出具有AF2预测结构的功能性酶。InstructPLM的代码和模型权重都公开在https://github.com/Eikor/InstructPLM。

突变，包括由单个核苷酸变化引起的点突变以及多个碱基的缺失、复制和插入，是进化的驱动力，为生命快速适应不断变化的环境条件提供了基础，是遗传多样性的根本原因。这些遗传变异为蛋白质工程提供了丰富的蛋白质资源。在蛋白质工程中，一个典型的挑战是蛋白质序列设计，也称为蛋白质反向折叠，它需要找到能够折叠成特定蛋白质主链结构的氨基酸序列。高度精确的蛋白质序列设计可以生成更有效的酶、改进的基于蛋白质的治疗方法，以及用于工业目的的工程蛋白质，如生物燃料生产和环境修复。最近出现的基于深度学习的方法，如ProteinMPNN和ESM-IF，极大地推动了蛋白质序列设计领域的发展。这些方法将蛋白质序列设计形式化为一个多模态学习问题，并通过训练模型的编码器-解码器模式，将蛋白质主链结构转换为相应的序列来解决问题。深度学习架构的迅速发展，包括图神经网络和Transformer，与来自Protein Data Bank (PDB)和AlphaFoldDB的高质量蛋白质结构数据相结合，促进了该领域的重大进展。例如，由ProteinMPNN设计的肌红蛋白和烟草蚀刻病毒（TEV）蛋白酶表现出更高的表达、稳定性和功能性；ProteinMPNN从头设计的结合物对靶点显示出高亲和力和特异性。

多模态学习虽然简单有效，但由于高质量的跨模态数据的匮乏而面临重大障碍。例如，在视觉-语言理解领域，从头训练模型需要有高质量的图像-文本对数据集，例如图像描述和视觉问答。在蛋白质序列设计中，上述ProteinMPNN的训练依赖于Protein Data Bank (PDB)中通过X射线晶体学或冷冻电镜实验确定的蛋白质组件。为了解决数据有限的问题，在大型视觉-语言模型领域出现了一种新的策略，即跨模态对齐，据说已被整合到GPT-4中（尽管GPT-4的技术细节尚未公开披露）。这种技术利用现有的预训练单模态模型来促进多模态理解。预训练的单模态模型通过在大型单模态数据集上的广泛训练学习特定领域的表示，但它们通常缺乏跨模态理解和推理的能力。跨模态对齐通过将预训练的视觉模型与预训练的语言模型仔细对齐，弥合了这一差距，从而实现了有效的跨模态生成、理解和推理。尽管跨模态对齐技术在视觉-语言理解中取得了成功，但由于蛋白质科学与视觉-语言任务之间存在固有差异，其在蛋白质序列设计中的潜力仍未被探索。因此，应对这一挑战需要开发专门为蛋白质量身定制的强大单模态模型和对齐技术。

幸运的是，蛋白质语言模型（pLMs），如ESM、ProtGPT和ProGen，已经成为生物信息学和计算生物学中蛋白质序列建模的关键创新。受大型语言模型GPT和BERT的成就启发，pLMs在大量蛋白质序列数据集上进行了预训练，从而对蛋白质领域有了全面的了解。这包括捕捉已观察到的进化序列的分布、生成新的可行序列以及预测蛋白质适应性。具体来说，pLMs已展示出根据特定条件生成功能性蛋白质序列的能力。例如，基于GPT的pLMs，如ProGen和ProtGPT，可以根据同源样本或指定蛋白质特性的控制标签生成蛋白质；基于ESM的pLMs通过应用或从预训练的掩码语言模型中采样来设计所需的蛋白质序列。然而，与展示零样本泛化能力和通过指令微调或强化学习等方法在广泛任务上理解用户意图的通用语言模型不同，pLMs在如何遵循精细和复杂的生物指令生成蛋白质序列甚至模拟生命进化方面仍然是一个开放的研究领域。正如《2024年值得关注的七项技术》所述，关于蛋白质设计的深度学习，“基于序列的方法可以利用并调整现有的蛋白质特征以形成新的框架，但它们在结构元素或特征的定制设计方面效果较差。”

在这项工作中，作者展示了跨模态对齐和指令微调技术的成功适用，这些技术原本是为大型语言模型开发的，现在被应用到蛋白质序列设计领域。这种转移性强调了这些技术在生命科学中的广泛适用性。作者提出的模型InstructPLM，采用了一个轻量级的交叉注意力层，将一个固定的蛋白质主链编码器与一个固定的蛋白质语言模型解码器对齐，旨在教授蛋白质语言模型按照蛋白质结构指令设计序列。这种配置能够利用pLMs的强大泛化能力，同时激发pLMs按照残基级蛋白质结构指令进行设计。InstructPLM在困惑度和序列恢复方面超越了现有的序列设计技术，同时只增加了2%的参数训练。

模型部分

InstructPLM的整体模型架构由三个部分组成：一个蛋白质语言解码器，一个蛋白质主链编码器，一个蛋白质结构到序列的adapter。

图 1

1、蛋白质语言解码器部分，作者这里采用的是ProGen2中参数最多的模型ProGen2-xlarge，有着6.4B参数；

2、蛋白质主链编码器部分，作者从现有的蛋白序列设计模型（如ProteinMPNN，ESM-IF）初始化其编码器；

3、蛋白质结构到序列的adapter，是InstructPLM中的关键组件，负责将结构与序列在语义空间中对齐，它也是InstructPLM中唯一需要训练的模块。这个adapter包含一个随机初始化的单层交叉注意力模块。该模块使用多个可训练的嵌入作为查询向量，以及蛋白质主链编码器的输出作为键/值来进行交叉注意力计算。这个交叉注意力模块将蛋白质主链特征压缩成一个固定长度的结构指令。此外，作者仿照着Qwen-VL的方法，在交叉注意力中添加一维绝对位置编码，以在压缩过程中保留蛋白质一级结构信息。压缩后的蛋白质主链结构特征序列随后被送入蛋白质语言模型，作为一个软提示。

蛋白质序列设计的计算机实验验证

图 2

表 1

为了计算评估，作者使用CATH 4.2评估InstructPLM的性能，这是蛋白质序列设计中广泛采用的评测基准。作者采用官方的训练集、验证集和测试集，分别包含18,024个、608个和1,120个蛋白质。表1和图2(A)左侧面板展示了在CATH 4.2保留测试集上的详细序列设计性能。

InstructPLM与在CATH 4.2数据集上从头开始训练的模型相比，展示了优越的性能。在困惑度方面，InstructPLM显著改善了最佳基线ESM-IF，提高了32.3%（从3.96降至2.68）。在序列恢复指标方面，InstructPLM也表现出显著的增强，恢复率较最佳基线PiFold提高了11.3%（从51.66提升至57.51）。特别值得注意的是，InstructPLM与ProteinMPNN之间的比较凸显了蛋白质语言模型在表征进化序列分布方面的有效性。这一点显而易见，因为它们使用相同的主链编码器，主要区别在于它们的序列解码器。

更有趣的是，InstructPLM在CATH 4.2的不同子集中显示出一致的改进模式，尤其是在设计短蛋白和单链蛋白时取得更显著的增强。这一观察表明，模型的架构、训练技术和pLM的先验知识对这些蛋白质类型特别有效。这也表明InstructPLM不仅是一个强大的通用蛋白质设计器，而且在专门应用中表现出色，特别是在蛋白质序列较短或由单链组成的情况下。

传统的序列恢复指标并不适合评估可变长度序列的质量，因为它是根据设计序列与其天然对应物的逐位置准确性来评估的。为了有效评估InstructPLM的独特能力，作者提议使用序列同源性评分作为一种新的度量标准。作者采用DEDAL，这是一种基于深度学习的最新同源性检测方法。该方法在对远端同源体的搜索中显示了显著的对齐准确性改进，性能比传统方法高出两到三倍。在CATH 4.2的测试分组中，作者为每个天然蛋白质结构随机设计了20个蛋白质序列，温度设置为0.15。由DEDAL确定的序列同源性评分用作比较天然与人工设计序列相似性的度量标准。如图2(A)右侧面板所示，展示了各种方法的同源性评分分布，InstructPLM的平均同源性评分为63.97，分别超过了ProteinMPNN/ESM-IF/PiFold的23.25/8.83/18.9。图2(B)详细展示了不同长度序列的同源性评分分布，证明了InstructPLM在设计不同长度序列时保持了一致的高性能水平。

InstructPLM的湿实验验证

图 3

尽管InstructPLM在诸如困惑度、序列恢复和同源性评分等计算机模拟序列设计指标上取得了显著改进，作者还测试了InstructPLM设计功能性蛋白的能力。具体来说，作者在PETase（PDB代码：7SH6）和L-MDH（Uniprot：A0A319AA41）上评估InstructPLM。值得注意的是，L-MDH没有经过实验确定的结构，因此作者基于其AF2预测的结构来设计L-MDH。设计过程在图3(A)中有所概述。利用主链结构作为起点，InstructPLM通过自回归生成产生10,000个潜在序列，采用top-p抽样（p = 0.9）和温度0.8。序列的结构使用ESMFold预测，并使用DeepAlign包中的DeepScore计算TM-Score，以评估结构相似性。最后，作者选择按TM-Score排名最高的序列进行进一步实验。

设计PETase是对InstructPLM改进自然存在蛋白质能力的一项测试。作者选择TM-Score最高的前15个序列进行实验。这15个序列的长度从261到269不等，反映了InstructPLM生成可变长度序列的能力。当在大肠杆菌中表达时，InstructPLM设计的所有15个序列均显示出良好的表达水平。通过高效液相色谱法定量PET水解反应产物—双(2-羟乙基)对苯二甲酸酯（BHET）、单(2-羟乙基)对苯二甲酸酯（MHET）和对苯二甲酸（TPA）。InstructPLM设计的所有15个序列都具有PET水解活性，其中11个序列的活性优于野生型（PDB代码：5XJH），如图3(B)所示。图3(E)展示了一个由InstructPLM生成的序列示例，它同时具有催化三元组和两个二硫键。

L-MDH（苹果酸脱氢酶，Uniprot: A0A319AA41）是柠檬酸循环中的关键酶，目前没有可用的实验确定的结构。作者依赖于AlphaFold2预测的结构作为设计基础。遵循与PETase相同的协议，作者使用InstructPLM生成10,000个序列，并选出TM-Scores最高的15个序列。在这15个设计的L-MDH序列中，实验验证显示有三个展示出了可检测的酶活性。虽然这些活性变体的表现没有超过野生型酶，但鉴于L-MDH缺乏实验确认的结构，这些序列展现出活性本身就是一个重大成就。基于完全计算预测的结构生成功能性酶的能力突显了结合高级蛋白质结构预测工具如AlphaFold和结构设计工具如Chroma与InstructPLM的潜力。值得注意的是，这三个序列都比野生型短，进一步展示了InstructPLM的灵活性和适应性。作者通过序列比对比较了L-MDH和三个具有可检测酶活性的酶，并发现它们都具有相同的活性位点HIS179。

InstructPLM是否适用scaling law？

表 2

图 4

在大型语言模型的背景下，"scaling laws"（规模化法则）指的是这些模型的下一个词预测损失按照模型参数数量、训练数据量或训练过程中使用的计算资源的规模呈幂律缩放的观察结果。作者研究了InstructPLM的困惑度与其ProGen2 pLM解码器模型大小之间的关系。ProGen2模型家族包括从151M到6.4B不等的自回归pLMs模型大小。作者通过枚举InstructPLM中的pLM解码器从ProGen2-small（151M参数）、ProGen2-base（764M参数）、ProGen2-large（2.7B参数）到ProGen2-xlarge（6.4B参数）进行消融研究。所有其他模型配置与前节相同。实验结果显示在表2和图4中。在所有五个数据集上，ProGen和InstructPLM都遵循大型语言模型的规模化法则——它们的语言模型损失可以使用相对于模型大小的幂律预测。与ProGen2相比，InstructPLM在不同模型大小和各种数据集上都取得了稳定且一致的改进。这不仅展示了作者在InstructPLM中采用的跨模态对齐和指令微调技术的有效性，而且还表明蛋白质序列设计任务可以不断从蛋白质语言模型的规模化中获益，从而达到更好的性能。

不同蛋白质主链编码器的消融实验

作者进一步研究了InstructPLM中使用不同蛋白质主链编码器的效果，包括ProteinMPNN、ESM-IF和PiFold的编码器。对于ProteinMPNN，作者将九个发布的ProteinMPNN模型编码的蛋白质主链表示进行拼接，每个维度为128，最终获得的蛋白质主链嵌入维度为128×9=1152。对于ESM-IF和PiFold，作者采用它们的主链编码器，分别将蛋白质主链结构表示为512和128维的嵌入。值得注意的是，虽然ESM-IF最初是在CATH 4.3上训练的，但作者出于公平比较的目的，展示了在CATH 4.2数据集上训练的InstructPLM-ESM-IF的结果，实验结果详细列在表3中。在所有数据集中，作者观察到InstructPLM-MPNN表现最佳，现实了ProteinMPNN的稳健性和有效性。

Adapter中可学习的查询向量数据的消融实验

表 4

为了探究蛋白质结构-序列adapter在序列设计中的表达能力，作者对adapter中交叉注意力的可学习查询向量数量进行了消融研究。作者在CATH 4.2、TS50和TS500数据集的测试分组上，展示了序列设计性能方面的困惑度。在保持其他超参数与训练阶段相同的情况下，查询长度分别选择为32、64、128、256和512。InstructPLM在不同查询数量下的详细性能显示在表4中。InstructPLM随着查询长度的增加而实现更好的困惑度，说明了蛋白质结构-序列适配器是如何压缩并向ProGen2解码器提供有意义的指令的。然而，查询数量超过256可能会导致过拟合。尽管在CATH 4.2的两个子集（即短链和单链）上queries=512的InstructPLM比queries=256的InstructPLM实现了更好的困惑度，但可以观察到queries=512的InstructPLM在CATH 4.2、TS50和TS500上性能显著下降。为了使用更稳健的模型，作者默认将查询数量设置为256。

编译 | 黄海涛

审稿 |王建民

参考资料

Qiu, J., Xu, J., Hu, J., Cao, H., Hou, L., Gao, Z., ... & Chen, G. (2024). InstructPLM: Aligning Protein Language Models to Follow Protein Structure Instructions. bioRxiv, 2024-04.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-24，如有侵权请联系 cloudcommunity@tencent.com 删除

性能