前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | 基于重要功能位点与小分子底物的生成式酶设计

ICML 2024 | 基于重要功能位点与小分子底物的生成式酶设计

作者头像
DrugAI
发布2024-06-18 15:42:45
990
发布2024-06-18 15:42:45
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自Lei Li团队的一篇论文。酶是由基因编码的生物催化剂,能够加速化学反应。那么,如何能自动设计出功能性酶呢?在这篇论文中,作者提出了EnzyGen,这是一种学习统一模型来设计各个功能家族酶的方法。作者的核心理念是基于重要功能位点和对应期望催化功能的底物生成酶的氨基酸序列及其三维(3D)坐标。这些位点是从酶数据库中自动挖掘出来的。EnzyGen由一种新颖的交错注意力网络和邻域等变层组成,能够捕捉整个蛋白质序列中的远程关联和3D空间中最近氨基酸的局部影响。为了学习生成模型,作者设计了一个联合训练目标,包括序列生成损失、位置预测损失和酶-底物相互作用损失。作者还构建了EnzyBench,一个包含3157个酶家族的数据集,覆盖了蛋白质数据库(PDB)中所有可用的酶。实验结果表明,EnzyGen在所有323个测试家族中始终表现最佳,在底物结合亲和力方面比最佳基线高出10.79%。这些发现证明了EnzyGen在设计具有高亲和力并与特定底物结合的结构良好且有效的酶方面的卓越能力。

酶是加速各种生物过程中复杂化学反应的生物催化剂。它们在制药、特种化学品和生物燃料的生产中有着广泛的应用。在酶促反应中,底物是被酶催化剂转化的小分子。通过与特定底物结合并作用,酶能够极大地加速底物的转化速率。设计能够与特定底物结合的酶是一个关键但具有挑战性的问题。

先前将DL应用到酶设计的方法面临许多限制。首先,适应度导向的方法受到大多数酶家族缺乏适应度数据的限制。其次,许多酶的结构仍然未知。第三,之前的方法在酶设计过程中没有对底物进行建模。最后,目前没有适用于所有酶家族的统一模型。

在这篇论文中,作者旨在学习一个统一的生成模型,以设计跨越数千种酶家族的功能性酶。关键设计理念在于,酶的生物功能由一部分残基(氨基酸)实现,这些残基被称为功能重要位点,而理想的酶应该能够在酶促反应中与其底物结合。因此,作者将酶设计问题表述为在给定自动挖掘的功能重要位点和特定酶功能相关的底物的情况下,联合生成酶的序列和骨架结构。

模型部分

图 1

作者提出了一个名为EnzyGen的模型,如图1(a)所示,该模型在酶的小分子底物的约束下,同时生成酶的序列及其三维骨架结构。EnzyGen是一个深度神经网络,由酶建模模块和底物表示模块组成。酶建模模块由个堆叠的邻域注意等变层(NAELs)组成。每个NAEL由一个使用Transformer的全局注意子层和一个邻域等变子层(图1(b))组成,以结合基于Cα坐标的邻近残基信息。底物表示模块由个堆叠的邻域等变层组成,用于在底物V内部传递信息,从而对酶的设计提供结合约束。图中的x代表氨基酸序列的3D空间坐标。

对于NAEL全局注意力子层,该子层计算所有酶残基的全局上下文嵌入,但不考虑残基在三维空间中的邻近度。作者允许每个残基关注整个序列中的所有其他残基,促进了整个酶序列的信息流动。

对于NAEL邻域等变子层,该子层包括三个组成部分:邻域消息更新、邻域坐标更新和邻域节点特征更新(图1(b))。仅使用最近邻来更新三维空间中的残基表示和坐标,相较于之前计算完整成对残基图的消息传递方法,更加高效且经济。其中,邻域消息更新是使用Cα坐标计算残基之间的距离,并选择K个最近的残基(图1(b)绿色区域),计算第i个残基及其K个最近邻居(记作Neighbor(i))之间的消息;而邻域坐标更新则是将第i个残基的Cα坐标更新为径向方向上的K最近邻向量场(图1(b)蓝色区域),第i个残基在第l层的Cα坐标使用所有相对差异的加权和进行更新,输入的残基Cα坐标要么是功能重要位点的给定坐标,要么是随机初始化为以其左侧残基为中心的球面上的3D点;而邻域节点特征更新是通过一个门控机制聚合来自K近邻的信息(图1(b)红色区域)。

对于底物表征模块,作者堆叠了Ls个邻域等变层来学习底物表示。对于第l层的底物原子嵌入向量和相应的坐标,底物消息传递过程如式1所示。其中,和各自代表邻居消息更新和邻域节点特征更新。

式 1

EnzyGen在设计与其相应底物具有高亲和力的酶方面表现出色

ESP评分、底物结合亲和力和pLDDT结果分别显示在表1、表2和表3中。

表 1

表 2

表 3

表1和表2突出显示了EnzyGen在323个酶家族中实现最高平均ESP评分和底物结合亲和力的能力。值得注意的是,EnzyGen获得了平均ESP评分0.65,超过了ESP评估者开发者建议的0.6的酶-底物相互作用阈值。这表明由EnzyGen设计的酶能够以高亲和力结合其相应的底物。

根据Guo等人和Binder等人的研究发现,高pLDDT评分(例如,大于80)表示对残基结构的高度置信度。EnzyGen在323个家族中获得了平均87.45的pLDDT评分。这表明作者的模型在设计具有稳定折叠的酶方面的能力,验证了在酶设计过程中结合结构信息的价值。

交叉网络和底物限制起作用了吗?

图 2

与直接将ESM2和EGNN拼接相比,图2(a)显示,EnzyGen在考虑不同候选集时,始终提高了323个家族的平均ESP评分。在图2(b)中,EnzyGen在各种候选集上实现了比ESM2+EGNN更高的AlphaFold2 pLDDT评分。这些结果证明,作者提出的NAEL中的交错网络促进了不同粒度的信息交换,从而有助于设计出具有更好底物结合功能的结构良好的酶。作者进一步研究了所提出的酶-底物相互作用约束是否有用。如图2(c)所示,在训练过程中加入酶-底物相互作用约束,提高了底物结合亲和力,增强了底物结合更强的酶设计。

模型变大性能会提升吗?

为了评估EnzyGen的可扩展性,作者将EnzyGen(714M)与在相同数据集上训练的随机初始化的12层模型(117M)进行比较。图2(d)展示了不同候选集下323个类别的平均ESP评分。结果表明,随着模型规模的扩大,EnzyGen获得了更高的酶-底物相互作用评分,而且当考虑更多候选者时,这一差异变得更加明显。这证实了EnzyGen的可扩展性(scalable)优势。

进一步的微调会更好吗?

表 4

借鉴微调预训练多语言模型用于特定语言的策略,作者对每个三级类别进行了进一步微调。每个类别进行了额外的30个周期的微调,生成了EnzyGenfinetune。如表4所示,15个类别在微调后表现出ESP评分的提升。同时,8个类别的表现有所下降,值得注意的是,除了2.3.1外,它们的训练规模都小于1000。这些发现表明,EnzyGen确实可以从进一步的微调技术中受益,且更大的训练数据规模会带来更显著的改进。

零样本泛化能力

图 3

为了评估EnzyGen的泛化能力,作者分别从Swiss-Prot中选择了两个未见过的底物(镁离子(Mg2+),锌离子(Zn2+))和两个未见过的四级类别(2.7.13.3, 6.3.2.4),这些并未包含在EnzyBench基准测试中。对于这些酶案例,作者利用了AlphaFold数据库提供的结构。每个新的四级类别或底物的前32个候选者的ESP评分如图3(a)所示。值得注意的是,两个四级类别的平均ESP评分为0.83,两个底物的平均ESP评分为0.89,超过85%的案例得分高于0.6。这些观察结果证实,功能重要位点对于设计功能性酶至关重要。即使未在这些类别上进行训练,EnzyGen依然展示了设计具有底物结合能力酶的能力。

作者在图3(b)中对3,157个四级家族类别嵌入进行了聚类。结果显示,来自同一超家族的酶家族聚集在一起,在嵌入空间中展示了更接近的标签表示。这一观察结果证实了作者的家族标签学习了有用的功能信息,即具有相似功能的酶家族具有更接近的嵌入表示,这说明EnzyGen可以为理想酶的设计提供指导。

使用EnzyGen设计全新的酶

图3(c)和(d)展示了两个设计的酶,它们的pLDDT评分接近或超过90,底物结合亲和力低于-10。此外,Gnina对接复合物显示了酶和底物之间的极性接触(氢键),这证明了酶-底物相互作用功能。作者在Uniprot中进行的blastp搜索结果表明,设计的酶与最相似的酶的氨基酸同一性分别为58.5%和49.4%。这些结果表明,作者的模型能够设计出具有高底物结合亲和力的新型酶。

参考资料

Song, Z., Zhao, Y., Shi, W., Jin, W., Yang, Y., & Li, L. (2024). Generative Enzyme Design Guided by Functionally Important Sites and Small-Molecule Substrates. arXiv preprint arXiv:2405.08205.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档