首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Cell. Syst. | 蛋白编码如何学习结构,功能与进化知识?

Cell. Syst. | 蛋白编码如何学习结构,功能与进化知识?

作者头像
DrugOne
发布于 2025-05-04 04:39:41
发布于 2025-05-04 04:39:41
1580
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自美国约翰霍普金斯大学Jeffrey J. Gray团队的一篇论文。在蛋白质中,任何位置上的最佳残基是由其结构、进化和功能环境决定的——这很像语言中如何可以从上下文推断出一个词。作者训练了掩码标签预测模型,以学习不同环境中氨基酸残基的表示。作者关注进化和结构灵活性的问题,以及通过预训练和微调获得的上下文编码是否以及如何改进专门环境的表示。从作者学习的表示中采样的序列可以折叠成模板结构,并反映了相关蛋白质中观察到的序列变异。对于灵活的蛋白质,采样序列可以遍历天然序列的完整构象空间,这表明可塑性已经编码在模板结构中。对于蛋白质-蛋白质界面,生成的序列在体外模拟中复制了野生型结合能量,跨越了各种界面和结合强度。对于抗体-抗原界面,微调重现了保守的序列模式,而在一般环境下的预训练改善了超可变H3环的序列恢复。

近年来,已有多种深度学习模型被提出用于结构条件下的蛋白质序列设计,这些模型在各种设计任务中取得了成功。然而,目前尚不清楚基于结构条件生成的序列与来自进化家族的序列相比如何。对于具有多种构象的蛋白质,生成的序列范围是否也会表现出多种构象?此外,对于特定的进化环境,例如数据丰富的抗体或数据稀疏的T细胞受体,特定环境模型相比一般蛋白质模型表现如何?或者,何时训练一般蛋白质机器学习模型最佳,何时训练特定进化环境的模型最佳?为解答这些开放性问题,作者训练了掩码标签预测模型,以学习不同结构、功能和进化环境中氨基酸残基的表示。作者关注进化和结构灵活性的问题,以及通过预训练和微调获得的上下文编码是否以及如何改进专门环境(如抗体-抗原界面)的表示。由于篇幅限制,此处仅展示部分内容。

模型部分

图 1

自然语言处理中,词的语义可能来源于它出现的上下文。自监督技术如掩码语言建模(MLM)学习词在其上下文中的表示,这些表示可泛化到各种自然语言任务。在MLM中,基于注意力的transformer模型被训练来预测句子中缺失的词。模型通过随机掩盖一小部分词进行训练,并学习基于序列中非掩码词提供的上下文来预测被掩码的词。UniMP,一种用于图结构数据的掩码标签预测模型,模拟了在图中从已标记样本向未标记样本传递标签信息的过程。作者将MLM和UniMP的概念框架应用于从非掩码氨基酸残基在其结构和序列环境中传递氨基酸残基标签的学习,到在其结构和部分或完全掩码序列环境中的掩码氨基酸残基(图1A)。

作者的模型受到BERT多层双向transformer编码器的启发(图1B)。作者的编码器由四个基于等变图神经网络(EGNN)的E(n)transformer块组成,并修改为包含类transformer层,用于基于注意力的邻近节点聚合、前馈层和多头注意力。每个残基由三个主链原子(N、CA和C)和一个侧链原子(CB)表示。节点特征包括二十个独热编码序列标签(氨基酸残基)和四个独热编码原子标签(N、CA、C和CB)。所有氨基酸残基,包括甘氨酸,都通过这种表示得到适当表示(甘氨酸的CB编码为0)。对于掩码残基,CB被移除(独热原子编码设为零,与甘氨酸相同),其坐标被替换为零。空间中的相对位置和序列中的残基位置分别用Roformer和正弦嵌入编码。当存在多条链时,位置索引偏移100个残基。每个原子连接到其48个最近邻原子。作者使用256维的隐藏维度(D),分布在8个注意力头上。本工作中描述的所有模型有4.2百万个参数。

首先,作者在PDB数据集中的单链蛋白质上用MLM目标训练了一个通用蛋白质模型Prot_EnT,该数据集按50%聚类处理(有关训练集的详细信息,请参见STAR方法)。在最多15%部分掩码的训练后,该模型在低掩码率(15%)时可以恢复高达45%的序列一致性,并且在100%掩码时仍能恢复37.4%的序列一致性。作者还确认调整采样温度允许作者使生成的序列从低温下的最大似然序列变化到高温下更多样化的序列。作者探索了架构变化(图S2)并发现具有4个块的模型性能最佳。作者还确定在训练期间改变种子会导致序列恢复率的基线变化为4%,困惑度的基线变化为1.3比特。接下来,作者研究在100%掩码率下从Prot_EnT模型采样的蛋白质序列。

生成的蛋白质序列折叠成目标结构并采样附近的结构空间

作者首先检查了生成的序列在其预测结构中如何变化,以及这种变化如何在不同蛋白质间转变。使用TS50测试集,作者为50个蛋白质生成了最大似然设计。在这些蛋白质中,43个目标设计折叠成与天然结构的均方根偏差(RMSD)在2埃以内的结构。在最大似然设计未能折叠到天然结构的七个目标中,作者观察到AF2也未能将其中一个目标的野生型序列折叠到其天然结构。对于剩余的六个目标,作者采样了50个设计并计算了AF2折叠结构相对于天然结构的RMSD。采样序列在六个目标中只有三个目标能够得到与天然结构RMSD在2埃以内的折叠结构。因此,虽然Prot_EnT可以为49个目标中的46个(忽略AF2无法折叠野生型序列的一个目标)采样出能折叠成目标结构的序列,但仅编码器的Prot_EnT无法为TS50集合中至少3个目标采样出能折叠成目标结构的序列。这表明仅编码器模型可能不够,而迭代解码对于正确设计某些蛋白质结构可能至关重要。

在最大似然设计折叠成目标结构的43个目标中,作者选择了两个蛋白质进行进一步分析——一个具有高最大似然序列恢复率49%(甘露糖转运蛋白;PDB:1PDO)和另一个具有低最大似然序列恢复率27%(抗血小板水蛭蛋白;PDB:1I8N)。

图 2

作者为每个蛋白质基于晶体结构采样了200个序列,并用AF2对它们进行折叠。对于甘露糖转运蛋白,96%的结构保持了相同的折叠(模板建模评分或TM评分≥0.5)并表现出总体良好的pLDDT(预测的局部距离差异测试)值(图2A)。对于抗血小板水蛭蛋白,只有59%保持相同的折叠,pLDDT评分较低(图2B)。作者检查了与原始结构具有低和高RMSD的代表性结构(图2A和2B中选定的结构1、2和3)。具有较高RMSD的结构("2"和"3")捕获了起始结构中的许多结构基序,但在α-螺旋排列或β链的数量上有所不同。这表明对给定结构采样的序列不仅可以折叠成野生型结构,还可以采样起始结构的结构邻域。

为探究这些相关折叠是否可以在体外得到稳定(即条件序列的pLDDT评分更高),作者为来自TS50的四个目标生成了基于这些采样折叠的序列,包括甘露糖转运蛋白和抗血小板水蛭蛋白。这样采样的序列中只有一小部分以合理的置信度(平均AF2 pLDDT值≥70,与野生型序列相匹配)靠近采样的折叠结构(RMSD≤2埃)。作者还使用Foldseek搜索了PDB、AF2和ESMFold数据库中类似于这些采样折叠的天然蛋白质,但除了一种情况外没有发现任何匹配。这些相邻折叠难以稳定的现象表明,天然蛋白质的折叠空间是稀疏的,跨越或连接这些自然发生的折叠空间的附近结构折叠可能不稳定或仅暂时存在。稍后,作者将研究在自然界中观察到折叠转换或构象灵活性的结构折叠。

生成的蛋白质序列概括了本地序列的生物相关的序列邻域

为了比较Prot_EnT采样的序列空间与生物学采样的序列空间(即我们两个选定目标的天然序列,甘露糖转运蛋白和抗血小板水蛭蛋白),作者基于它们各自的结构采样了10,000个序列。作者还使用MMseqs2提取了与野生型蛋白质相关的天然序列。然后,作者用ESM-1b嵌入对每个序列(采样和MMseqs2)进行嵌入,并将嵌入投影到二维空间。在二维空间中的投影结果揭示了投影空间中蛋白质语言模型视角下的序列相似性。采样序列重现了天然序列的序列空间(图2C)。与具有数千个生物学相关序列的甘露糖转运蛋白序列不同,野生型抗血小板水蛭蛋白序列只有少量相关的天然序列,这些序列稀疏地分布在投影序列空间中(图2C)。相比之下,Prot_EnT采样序列可以填充这个稀疏分布的序列空间(T = 1.0),从而桥接自然界中观察到的序列空间(图2D)。因此,采样序列可以扩展起始结构的局部结构和序列邻域。

生成的序列可以稳定天然序列的结构构象体

接下来,作者提出了两个问题:灵活性是否被编码到结构中,使得作者可以通过序列生成来遍历柔性蛋白质的构象空间?其次,在不同温度下生成的序列的结构是否会反映自然界中观察到的构象状态?为回答这些问题,作者选择了明胶蛋白,一种由severin结构域组成的高度柔性蛋白质。非活性形式表现为封闭构象。加入钙离子会激活一种类似锁闩的机制,导致活性开放构象。

图 3

作者对非活性构象和活性构象进行了条件序列采样(图3A和3B)。在低温(T = 0.1)下,以非活性构象(PDB: 1D0N)为条件的序列重现了通过MMseqs2获得的与天然序列相关的自然序列(图3A,左)。然而,以活性构象(PDB: 1H1V;图3B,左)为条件的序列与自然序列不同。这种差异的一种可能解释是,自然序列被优化为折叠成非活性构象,并且仅在被钙离子触发时才表现出活性构象,而在低温下以活性构象为条件的采样序列对活性构象是最优的,无需激活。在更高温度(T = 0.5)下,为活性构象生成的序列与自然序列重叠(图S6B)。

此外,对于每种构象,作者用AF2折叠了200个随机采样的序列,并计算了结构的RMSD(比较图3A、3B)。以非活性构象为条件的序列显示了广泛的分布,即它们折叠成可能偏离非活性构象的结构,而以活性构象为条件的序列则几乎不偏离活性构象。这一结果表明,非活性结构本质上比活性构象更灵活,这与非活性构象需要预先倾向于构象变化的生物学要求一致。

为了研究采样序列是否能在更高温度下访问替代构象,作者采样了以非活性构象为条件的序列(图3C)。作者用AF2折叠了野生型序列附近的200个序列(用十字标记),并计算了折叠结构与活性和非活性构象的RMSD(图3C,右)。采样序列表现出广泛的构象范围,从接近非活性构象(灰色)到活性构象(青色)以及一些中间构象(黄色和紫色)。

因此,通过在不同温度下采样模型的序列空间并以不同构象为条件,作者可以遍历明胶蛋白的构象空间,从非活性构象到活性构象。

蛋白质界面的残基环境类似于蛋白质内部环境

对于蛋白质-蛋白质界面,作者比较了通用模型、仅界面模型和针对界面微调的通用模型(表1;微调策略I)。仅界面模型PPI_EnT只在来自MaSIF数据集的蛋白质-蛋白质界面数据上训练(无预训练)。微调的Prot_PPI_EnT模型从预训练的Prot_EnT模型开始,随后在MaSIF数据集上进行微调。表1比较了在PPI测试集(PPI300)上使用不同训练方案训练的模型的序列恢复情况。在蛋白质界面上进行微调(Prot_PPI_EnT)相比Prot_EnT模型仅显示出小幅的序列恢复改进,这表明界面残基环境类似于蛋白质核心区域的环境。其他研究也报道了针对单链蛋白训练的模型在蛋白质界面上具有高序列恢复率。

表 1

在数据有限的特定环境中进行训练时,使用仅蛋白质数据集的重要性通过Prot_EnT和Prot_PPI_EnT相比PPI_EnT的优越性能得到了强调。作者还发现,通过从预训练数据集中进行子采样的微调方法能有效防止灾难性遗忘。微调后的Prot_PPI_EnT模型在PPI300测试集上实现了41.9%的序列恢复率,同时在ProteinsTS50测试集上保持了35.3%的序列恢复率。

编译|黄海涛

审稿|王梓旭

参考资料

Mahajan, S. P., Dávila-Hernández, F. A., Ruffolo, J. A., & Gray, J. J. (2025). How well do contextual protein encodings learn structure, function, and evolutionary context?. Cell Systems.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
JCIM|药物发现中基于AI的蛋白质结构预测:影响和挑战
2022年6月21日,来自小分子变构药物发现公司HotSpot Therapeutics的Michael Schauperl等人在J Chem Inf Model杂志发表文章,探讨了基于AI的蛋白质结构预测方法对药物发现领域的关键贡献,以及所面临的局限性和挑战。
智药邦
2022/11/16
7340
JCIM|药物发现中基于AI的蛋白质结构预测:影响和挑战
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
今天为大家介绍的是来自Daniel Jesus Diaz团队的一篇论文。基于AI的蛋白质工程框架使用自监督学习(SSL)来获得用于下游突变效果预测的表示。最常见的训练目标是野生型准确性:在一个序列或结构中屏蔽一个野生型残基,然后预测缺失的氨基酸。然而,野生型准确性与蛋白质工程的主要目标不符,后者是建议突变而不是识别自然界中已存在的氨基酸。作者在此提出进化排名(EvoRank),这是一种结合从多序列比对(MSAs)中提取的进化信息的训练目标,用于学习更多样化的蛋白质表示。EvoRank对应于在MSA引导的概率分布中对氨基酸可能性进行排名。这个目标迫使模型学习蛋白质的潜在进化动态。在各种表型和数据集上,作者证明了EvoRank在零样本性能方面有显著提升,并且可以与在实验数据上进行微调的模型竞争。
DrugOne
2024/06/19
2780
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
bioRxiv | 抗体的幻想设计
这次为大家分享的是来自bioRxiv上的一篇题为《Hallucinating structure-conditioned antibody libraries for target-specific binders》的预印本,来自约翰霍普金斯大学化学与生物工程系、分子生物物理学项目组的Jeffrey J. Gray团队。在这篇文章中,作者团队提出了一个用于抗体设计的快速、通用的深度学习框架,旨在缩短抗体库生成和抗体亲和力成熟的周期。
DrugOne
2022/11/28
4010
bioRxiv | 抗体的幻想设计
Nature | 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构
Nature子刊 Machine Intelligence发布了八月份最新接收论文,共4 篇。一篇是清华生命学院龚海鹏和澳大利亚格里菲斯大学周耀旗等人用神经网络进行蛋白质结构预测方面的工作。
DrugOne
2021/01/29
1.4K0
Nature | 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构
ICML 2024 |通过微环境感知的分层提示学习预测蛋白质-蛋白质相互作用的突变效应
今天为大家介绍的是来自西湖大学李子青团队的一篇论文。蛋白质-蛋白质结合在多种基本生物过程中起着关键作用,因此预测氨基酸突变对蛋白质-蛋白质结合的影响至关重要。为了应对注释突变数据稀缺的问题,利用大量未标注数据进行预训练已经成为一种有前景的解决方案。然而,这一过程面临一系列挑战:(1) 尚未完全捕捉到多个(不止两种)结构尺度之间复杂的高阶依赖关系;(2) 很少研究突变如何改变周围微环境的局部构象;(3) 预训练在数据规模和计算负担方面成本高昂。在本文中,作者首先构建了一个分层提示代码簿(hierarchical prompt codebook),独立记录不同结构尺度下常见的微环境模式。然后,作者开发了一种新颖的代码簿预训练任务,即掩码微环境建模(masked microenviroment modeling),用于模拟每个突变与其残基类型、角度统计和微环境中局部构象变化的联合分布。通过构建的提示代码簿,作者将每个突变周围的微环境编码为多个分层提示,并将它们结合起来,灵活地为野生型和突变蛋白复合物提供关于其微环境差异的信息。这种分层提示学习框架在突变效应预测和针对SARS-CoV-2优化的人类抗体的案例研究中,表现出优于最新预训练方法的卓越性能和训练效率。
DrugOne
2024/06/21
3270
ICML 2024 |通过微环境感知的分层提示学习预测蛋白质-蛋白质相互作用的突变效应
ProGen:蛋白质生成语言模型
今天给大家介绍的是一项由硅谷Salesforce Research的Ali Madani等人和斯坦福的Possu Huang教授课题组合作的工作,他们在这篇论文中提出的一种蛋白生成语言模型ProGen。作者将蛋白质工程视为无监督序列生成问题,利用大约2.8亿个的蛋白质序列对12亿个参数进行训练,且要求这些蛋白质序列是基于分类和关键字标签的,如分子功能和细胞成分,这为ProGen模型提供了前所未有的进化序列多样性,并允许它进行基于一级序列相似性、二级结构准确率和构像能量的细粒度控制生成。根据NLP指标,ProGen模型表现出良好的性能,且随着氨基酸上下文和条件标签的增多,模型效果会进一步提升。ProGen也适用于未见的蛋白家族,若进行微调,模型效果更好。
DrugOne
2021/02/02
1.3K0
ProGen:蛋白质生成语言模型
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
DrugOne
2023/09/19
3190
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综
蛋白质-蛋白质相互作用(PPIs)是许多蛋白质功能的基础,了解蛋白质-蛋白质相互作用的接触和构象变化对于将蛋白质结构与生物功能联系起来至关重要。虽然难以通过实验检测,但分子动力学(MD)模拟被广泛用于研究蛋白质-蛋白质复合物的构象组合和动力学,但在采样效率和计算成本方面存在很大的局限性。近日发表在Journal of Chemical Theory and Computation的论文,“Exploring the conformational ensembles of protein-protein complex with transformer-based generative model”,根据分子动力学模拟获得的蛋白质-蛋白质复合物构象系综训练了一个基于Transformer的生成神经网络,以直接生成具有物理真实性的新蛋白质-蛋白质复合物构象。研究人员展示了如何使用基于Transformer架构的深度学习模型,通过 MD 模拟探索蛋白质-蛋白质复合物的构象系综。结果表明,学习到的潜在空间可用于生成蛋白质-蛋白质复合物的未采样构象,以获得补充原有构象的新构象,可作为分析和增强蛋白质-蛋白质复合物构象的探索工具。
DrugOne
2024/06/04
4040
J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综
Structure | 评估AlphaFold2在肽结构预测上的表现
今天为大家介绍的是来自Alican Gulsevin团队的一篇论文。近期在计算工具方面的进展极大提升了对蛋白质结构预测的准确度。计算预测方法已经被用于许多可溶性和膜蛋白的建模,但这些方法在肽结构建模上的表现尚未进行系统性研究。
DrugOne
2024/04/28
4310
Structure | 评估AlphaFold2在肽结构预测上的表现
ChemNet: 蛋白-小分子复合物构象系综生成
蛋白质与核酸、小分子、多肽以及金属等配体的相互作用对生物功能至关重要,但原子级别建模这些相互作用并预测其构象系综仍然面临较大挑战。已有的基于深度学习的结构预测工具通常针对特定类别的相互作用进行建模,这限制了对不同功能蛋白质的通用建模,同时这些方法对分子的输入特征因输入分子的类型而异,一定程度上限制了网络学习一般物理化学原理的能力。
DrugOne
2024/12/24
5340
ChemNet: 蛋白-小分子复合物构象系综生成
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
2022年5月30日,以色列特拉维夫大学Blavatnik计算机科学学院的Haim J. Wolfson等人在Nat Methods杂志发表文章,提出了一种可解释的深度学习模型,该模型直接从原始数据中学习具有功能的结构基序 (motifs),从而可以将蛋白质结合位点和抗体表位准确地映射到蛋白质结构上。
智药邦
2022/06/08
4.8K0
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
今天为大家介绍的是来自Clara T. Schoeder团队的一篇论文。计算蛋白质序列设计的目标是修改现有蛋白质或创建新蛋白质,但在没有对蛋白质动态和变构调控进行预测的情况下设计稳定且功能性的蛋白质具有挑战性。在蛋白质设计方法中引入进化信息可以将突变的空间限制在更类似原生蛋白的序列中,从而在保持功能的同时提高稳定性。最近,经过对数百万蛋白质序列训练的语言模型在预测突变效果方面表现出色。使用语言模型对Rosetta设计的序列进行评估,其评分低于其原始序列。为了在Rosetta设计协议中引入语言模型的预测,我们使用ESM(Evolutionary Scale Modeling,进化尺度建模)模型添加了一种新指标,以在设计过程中约束能量函数。生成的序列在语言模型评分和序列恢复方面表现更好,且Rosetta能量评估显示其适应性仅略微下降。总之,作者的工作结合了最新的机器学习方法与Rosetta蛋白质设计工具箱的优势。
DrugOne
2024/05/25
4200
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
Science | 在“放松”序列空间中实现可扩展的蛋白设计
今天为大家介绍的是来自德国慕尼黑工业大学Hendrik Dietz团队的一篇论文。基于机器学习的设计方法推动了从头蛋白质设计的发展,扩散模型的生成方法在蛋白质设计流程中越来越占据主导地位。本文介绍了一种基于“幻觉”的蛋白质设计方法,它在放松(relaxed)的序列空间中运行,能够在多个尺度上高效设计高质量的蛋白质骨架,并具有广泛的应用范围,无需任何形式的重新训练。作者通过实验生成并表征了100多种蛋白质,其中三种高分辨率的晶体结构和两张包含多达1000个氨基酸的设计单链蛋白的冷冻电子显微镜密度图验证了该方法的准确性。该流程还可用于设计合成蛋白质-蛋白质相互作用,实验验证了一组蛋白质异二聚体的效果。放松序列优化在设计性、不同设计问题的应用范围以及蛋白质尺寸的扩展性方面表现出色。
DrugOne
2024/11/27
2750
Science | 在“放松”序列空间中实现可扩展的蛋白设计
Cell|高精度从头设计可透膜的环状多肽
转眼间Alphafold2已经推出接近两年时间了,在这段时间里面,虽然学术界和产业界轰轰烈烈,各种fold的新版本层出不穷。但蛋白质结构预测这个任务在新药发现上的落地应用却鲜见报道。
智药邦
2022/11/16
1K0
Cell|高精度从头设计可透膜的环状多肽
Nature | 蛋白质遗传结构很复杂?Ben Lehner使用加性能量模型得出相反结论!
今天为大家介绍的是来自Ben Lehner团队的一篇论文。序列长度为100的蛋白质可能的氨基酸序列组合超过个,而已知宇宙中的原子数远少于这个数量。在如此庞大的序列空间中,无论是实验还是计算,都只能探索其中极小的一部分。近年来,深度神经网络越来越多地用于探索高维序列空间。然而,这些模型极其复杂。作者通过从大于的序列空间中进行实验采样,证明至少某些蛋白质的遗传结构非常简单,可以通过完全可解释的能量模型在高维序列空间中准确预测遗传特性。这些模型能够捕捉自由能与表型之间的非线性关系,但总体上由自由能的加性(additive)变化组成,只有少量的两两能量耦合作用。这些能量耦合作用稀疏,且与结构接触、主链的接近性相关。结果表明,蛋白质的遗传实际上既简单又容易理解。
DrugOne
2024/11/23
1210
Nature | 蛋白质遗传结构很复杂?Ben Lehner使用加性能量模型得出相反结论!
分子之心创始人许锦波:AI蛋白质设计最新进展
编辑 | 绿萝 1 月 11 日,在机器之心 AI 科技年会上,分子之心创始人、美国芝加哥丰田计算技术研究所终身教授、清华大学智能产业研究院(AIR)卓越访问教授许锦波发表主题演讲《AI 蛋白质设计最新进展》,在演讲中,他介绍了蛋白质结构预测与蛋白质设计,他表示 AI 蛋白质结构预测只是一个开始,分享了分子之心开发的 AI 蛋白优化和设计平台——MoleculeOS,以及在蛋白质侧链、抗体抗原复合物结构预测的最新研究成果。「人工智能颠覆了蛋白质结构预测,并正在改变蛋白质优化设计。」 以下为许锦波在机器之心
机器之心
2023/03/29
3580
分子之心创始人许锦波:AI蛋白质设计最新进展
Cell Systems | Genesis探索“暗物质“蛋白折叠,折叠蛋白成功率结果鼓舞人心
今天为大家介绍的是来自Bruno E. Correia团队的一篇论文。De novo蛋白质设计探索了未被进化采样的全新序列和结构空间,以生成新型蛋白质。De novo设计的主要挑战在于构建“可设计”的结构模板,以引导序列搜索朝着目标结构发展。作者提出了一种卷积变分自编码器,称为Genesis,它可以学习蛋白质结构的模式。作者将Genesis与trRosetta结合,用于为一组蛋白质折叠设计序列,结果发现Genesis能够为五种天然蛋白质折叠和三种新型折叠(即所谓的“暗物质”折叠)重构出像天然蛋白那样的距离分布和角度分布,展示了其广泛适用性。作者通过蛋白酶抗性表征这些设计蛋白的稳定性,实验的折叠蛋白成功率结果使人备受鼓舞。Genesis可以在几分钟内探索蛋白质折叠空间,不受蛋白质拓扑结构的限制。该方法解决了骨架设计的问题,表明小型神经网络可以有效地学习蛋白质的结构模式。
DrugOne
2024/11/23
1810
Cell Systems | Genesis探索“暗物质“蛋白折叠,折叠蛋白成功率结果鼓舞人心
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
今天我们介绍华盛顿大学的David baker课题组发表在bioRxiv上的工作。探索蛋白质构象的整体,这些构象对功能有贡献,并且可以被小分子药物所靶向,仍是一个未解决的挑战。本文探讨了使用软自省变分自编码器(Soft-introspective Variational Autoencoders)来简化蛋白质结构集合生成问题中的维度挑战。通过将高维度的蛋白质结构数据转化为连续的低维表示,在此空间中进行由结构质量指标指导的搜索,接着使用RoseTTAFold来生成3D结构。本文使用这种方法为与癌症相关的蛋白质K-Ras生成集合,训练VAE使用部分可用的K-Ras晶体结构和MD模拟快照,并评估其对从训练中排除的晶体结构的采样范围。本文发现,潜在空间采样程序可以迅速生成具有高结构质量的集合,并能够在1埃范围内采样保留的晶体结构,其一致性高于MD模拟或AlphaFold2预测。
DrugOne
2023/09/09
3020
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
Science|利用深度学习设计蛋白质功能位点
蛋白质设计在寻找能折叠成所需构象的序列方面取得了成功,但设计功能性蛋白质仍然具有挑战性。
智药邦
2022/11/16
7190
Science|利用深度学习设计蛋白质功能位点
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
本文介绍一篇拜罗伊特大学2022年7月发表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白质设计在自然环境和生物医学中发挥着重要作用,旨在为特定用途设计全新的蛋白质。受到近期Transformer架构在文本生成领域成功的启发,作者提出ProtGPT2,一种在蛋白质空间上训练的语言模型,用于生成遵循自然序列原则的全新蛋白质序列。ProtGPT2生成的蛋白质显示出天然氨基酸倾向,而无序预测表明,88%的ProtGPT2生成的蛋白质是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列有着远亲关系,相似网络进一步证明,ProtGPT2是对蛋白质空间中未探索区域的采样。ProtGPT2生成的序列在探索蛋白质空间的未知区域时,保留了天然蛋白质的关键特征。
DrugOne
2022/11/28
6020
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
推荐阅读
JCIM|药物发现中基于AI的蛋白质结构预测:影响和挑战
7340
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
2780
bioRxiv | 抗体的幻想设计
4010
Nature | 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构
1.4K0
ICML 2024 |通过微环境感知的分层提示学习预测蛋白质-蛋白质相互作用的突变效应
3270
ProGen:蛋白质生成语言模型
1.3K0
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
3190
J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综
4040
Structure | 评估AlphaFold2在肽结构预测上的表现
4310
ChemNet: 蛋白-小分子复合物构象系综生成
5340
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
4.8K0
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
4200
Science | 在“放松”序列空间中实现可扩展的蛋白设计
2750
Cell|高精度从头设计可透膜的环状多肽
1K0
Nature | 蛋白质遗传结构很复杂?Ben Lehner使用加性能量模型得出相反结论!
1210
分子之心创始人许锦波:AI蛋白质设计最新进展
3580
Cell Systems | Genesis探索“暗物质“蛋白折叠,折叠蛋白成功率结果鼓舞人心
1810
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
3020
Science|利用深度学习设计蛋白质功能位点
7190
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
6020
相关推荐
JCIM|药物发现中基于AI的蛋白质结构预测:影响和挑战
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档