Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
社区首页 >专栏 >Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测

Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测

作者头像
DrugAI
发布于 2024-06-18 07:43:52
发布于 2024-06-18 07:43:52
2150
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。了解蛋白质功能对于阐明疾病机制和发现新药靶点至关重要。然而,蛋白质序列的指数增长与其有限的功能注释之间的差距正在扩大。在之前的研究中,作者开发了一系列方法,包括GraphPPIS、GraphSite、LMetalSite和SPROF-GO,用于蛋白质残基或蛋白质水平的功能注释。为了进一步提高这些方法的适用性和性能,作者现推出GPSFun,这是一款用于几何感知蛋白质序列功能注释的多功能网络服务器,结合了语言模型和几何深度学习以提升以往工具的性能。具体而言,GPSFun利用大型语言模型高效预测输入蛋白质序列的3D构象,并提取有用的序列嵌入。随后,几何图神经网络被用来捕捉蛋白质图中的序列和结构模式,从而促进各种下游预测,包括蛋白质-配体结合位点、基因本体论(gene ontologies)、亚细胞位置(subcellular locations)和蛋白质溶解度(protein solubility)。值得注意的是,GPSFun在各种任务中均表现优于最新的前沿方法,不需要多序列比对或实验蛋白质结构。GPSFun对所有用户免费开放,并提供用户友好的界面和丰富的可视化功能,网址为https://bio-web1.nscc-gz.cn/app/GPSFun。

了解蛋白质功能对于理解宏基因组功能、揭示疾病机制和发现新药靶点至关重要。由于生化实验确定蛋白质功能的过程昂贵、耗时且通量低,目前蛋白质序列的迅速扩展与其有限的功能注释之间的差距正在扩大。为此,已经开发了许多计算工具,用于蛋白质残基和蛋白质水平的功能预测,例如蛋白质-配体结合位点、基因本体论(GO)、亚细胞位置和蛋白质溶解度。

尽管有大量针对各种任务设计的蛋白质功能预测工具,但缺乏一个提供高质量预测的全面平台。此外,许多现有的基于序列的方法,如TargetS,严重依赖于多序列比对(MSA),这在计算上非常昂贵,对于缺乏近亲同源物的孤儿蛋白来说是无效的。虽然作者之前的研究,如LMetalSite和SPROF-GO,通过用语言模型表示替代MSA克服了这个问题,但结构信息的缺失仍然提供了提高准确性的机会。相比之下,通过图神经网络(GNN)编码蛋白质结构的实验结构方法通常更有效。然而,这些方法中的大多数尚未充分探索结构中的几何形态。更重要的是,基于结构的方法不适用于尚未解决结构的新蛋白质。尽管作者之前开发的GraphSite已经展示了利用AlphaFold2预测结构进行DNA结合位点预测的可行性,但计算密集的结构预测流程限制了其在AlphaFold蛋白质结构数据库中缺失的序列上的应用。

基于蛋白质语言模型的最新发展,ESMFold作为AlphaFold2的一个有前途的替代方案,它用大规模预训练的蛋白质语言模型替代MSA,大大加快了预测速度,同时保持了相当的准确性。为了促进蛋白质结构建模,几何深度学习最近在蛋白质结构预训练、蛋白质设计、蛋白质对接和结合位点预测方面蓬勃发展。基于这些最新进展,有望进一步提高作者之前验证良好的蛋白质功能注释方法的适用性和性能。

模型部分

图 1

GPSFun的工作流程如图1所示。对于输入序列,GPSFun首先采用基于语言模型的折叠算法ESMFold预测蛋白质的3D构象。然后,使用另一个预训练的蛋白质语言模型ProtTrans(版本:ProtT5-XL-U50)提取序列嵌入,并通过最小-最大归一化进行进一步标准化。随后,使用几何特征提取器(geometric featurizer)捕捉预测结构中的残基和关系几何上下文。作者还使用DSSP从预测结构中计算相对溶剂可及性和二级结构谱,就像之前的研究中所做的一样。生成的几何感知蛋白质属性图被输入到一组GNN中,以发现用于各种下游任务(包括蛋白质-配体结合位点、GO功能、亚细胞定位和溶解度预测)的高级模式。

对于几何特征提取器,GPSFun将蛋白质表示为一个半径图,其中残基构成节点,相邻节点(Cα之间的距离小于15 Å)通过边连接。使用端到端的特征提取器来提取几何特征,类似于之前的方法,不同之处在于作者还对残基的侧链构象进行编码。具体而言,首先基于骨架Cα、N和C原子的相对位置在每个残基处定义一个局部坐标系。然后,导出几个SE(3)-不变的几何特征,以捕捉残基内或残基间骨架和侧链原子的排列情况。几何节点特征包括任何两个原子之间的残基内距离、其他内原子相对于Cα的相对方向,以及键(bond)和扭转角(torsion angles)。几何边特征包括相邻残基中任何两个原子之间的残基间距离、相邻残基中所有原子相对于中心残基Cα的相对方向,以及相邻节点两个参考系之间的旋转角。为了编码侧链构象,作者计算了重侧链原子的质心,并作为常规原子参与上述特征计算。

实验设置

为了训练蛋白质-配体结合位点、亚细胞定位和溶解度预测模型,作者在训练集上进行了五折交叉验证。对于GO预测,模型使用五个不同的随机种子在训练集上进行训练,并在预定义的验证集上进行评估。所有超参数通过网格搜索基于验证集的性能进行优化。在测试阶段,使用所有五个训练模型(来自交叉验证或不同种子)进行预测,并将其平均作为GPSFun的最终预测结果。

作者使用召回率(Rec)、精度(Pre)、准确率(Acc)、Jaccard系数、F1得分(F1)、最大蛋白质中心F值(Fmax)、Matthew相关系数(MCC)、受试者工作特征曲线下面积(AUC)和精确率-召回率曲线下面积(AUPR)来评估预测性能。

GPSFun在蛋白质-配体结合位点上的性能

表 1

对于蛋白质-配体结合位点的预测,作者将GPSFun与最新的基于序列的方法进行了比较,包括GraphSite、PepBind、PepBCL、TargetS和LMetalSite,以及基于实验结构的方法,包括GraphBind、GeoBind、aaRNA、PepNN、MaSIF-site、GraphPPIS、ScanNet、DELIA和IonCom。如表1所示,GPSFun在DNA、RNA、肽、蛋白质、ATP、HEM、Zn2+、Ca2+、Mg2+和Mn2+的独立测试集中,AUPR分别超过所有竞争方法17.6%、14.2%、55.0%、1.9%、29.3%、12.0%、6.8%、17.5%、16.8%和15.0%。为了进一步说明语言模型的序列嵌入和预测结构的有效性,作者进行了消融研究。通过使用ProtTrans嵌入作为序列特征,而不是之前使用的MSA配置文件,在十种配体中的平均AUPR增加了4.2%。另一方面,去除结构信息导致平均AUPR大幅下降19.3%。此外,去除GPSFun中的几何特征化工具也导致平均AUPR显著下降11.5%,这突显了GPSFun感知蛋白质几何结构的重要性。

GPSFun在GO预测上的性能

对于GO预测,GPSFun在测试集的分子功能(MF)、生物过程(BP)和细胞成分(CC)上,AUPR分别比基于序列的方法BLAST-KNN、DeepGOPlus和GOLabeler,基于预测结构的方法Foldseek-KNN,以及基于蛋白质-蛋白质相互作用网络的方法DeepGraphGO和NetGO高出11.6%、25.3%和5.8%以上。此外,GPSFun的表现与作者之前的SPROF-GO工具相当。GPSFun还很好地适用于非同源蛋白质。

表 2

在亚细胞定位预测方面,GPSFun的微观和宏观AUPR分别比基于序列的预测器DeepLoc和DeepLoc 2.0高出8.7%和10.7%以上(见表2)。与BLAST-KNN、Foldseek-KNN和不含结构信息的基线模型相比,GPSFun也表现出更好的性能。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Yuan, Q., Tian, C., Song, Y., Ou, P., Zhu, M., Zhao, H., & Yang, Y. (2024). GPSFun: geometry-aware protein sequence function predictions with language models. Nucleic Acids Research, gkae381.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugAI
2023/02/17
6810
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
今天带来的是美国马萨诸塞州波士顿哈佛医学院系统药理学实验室发表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
DrugAI
2022/11/28
3550
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(一)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/07
9910
RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(一)
天壤单序列结构预测再获突破!助力生成生物学更快发展
前不久,Meta最近的新角ESMfold以超AlphaFold2一个数量级的速度刷爆AI界,拥有150亿参数规模的超大蛋白质语言模型,不依赖MSA信息,能够直接对单一蛋白质进行原子精度级别的预测,被AI界的重量级人物图灵奖得主Yann LeCun称赞为Meta-FAIR蛋白质团队的伟大新成果。
智药邦
2022/11/16
3140
天壤单序列结构预测再获突破!助力生成生物学更快发展
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
今天为大家介绍的是来自Animashree Anandkumar团队的一篇论文。由蛋白和小分子构成的结合复合物是普遍存在的,对生命至关重要。尽管近年来蛋白质结构预测技术有了显著进展,现有算法仍未能系统地预测配体结构及其对蛋白质折叠的调控效应。为了解决这一差异,作者提出了一种名为NeuralPLexer的计算方法,能够仅通过蛋白质序列和配体分子图直接预测蛋白质-配体复合物结构。NeuralPLexer采用深度生成模型,按原子分辨率抽样结合复合物的三维结构及其构象变化。该生成模型基于扩散过程,整合了基本的生物物理限制和多尺度几何深度学习系统,以层次化方式迭代抽样残基级接触图和所有重原子坐标。与所有现有方法相比,NeuralPLexer在蛋白质-配体盲对接(blind protein-ligand docking)和柔性结合位点结构复原(flexible binding-site structure recovery)的基准测试上实现了最先进的性能。此外,由于其在采样配体自由态和配体结合态集合方面的特异性,NeuralPLexer在全局蛋白质结构预测准确性上一致超过AlphaFold2,无论是在具有大构象变化的代表性结构对还是在最近确定的配体结合蛋白上。NeuralPLexer的预测与酶工程和药物发现中重要靶标的结构测定实验相一致,显示出其在加速设计功能性蛋白质和小分子药物的潜力,有望在蛋白组学规模上实现。
DrugAI
2024/05/22
2060
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
今天我们介绍华盛顿大学的David baker课题组发表在bioRxiv上的工作。探索蛋白质构象的整体,这些构象对功能有贡献,并且可以被小分子药物所靶向,仍是一个未解决的挑战。本文探讨了使用软自省变分自编码器(Soft-introspective Variational Autoencoders)来简化蛋白质结构集合生成问题中的维度挑战。通过将高维度的蛋白质结构数据转化为连续的低维表示,在此空间中进行由结构质量指标指导的搜索,接着使用RoseTTAFold来生成3D结构。本文使用这种方法为与癌症相关的蛋白质K-Ras生成集合,训练VAE使用部分可用的K-Ras晶体结构和MD模拟快照,并评估其对从训练中排除的晶体结构的采样范围。本文发现,潜在空间采样程序可以迅速生成具有高结构质量的集合,并能够在1埃范围内采样保留的晶体结构,其一致性高于MD模拟或AlphaFold2预测。
DrugAI
2023/09/09
2550
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
Cell Systems | 深度学习开启蛋白质设计新时代
今天为大家介绍的是来自Bruno Correia团队的一篇综述。深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里显著地革新了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新有效药物。
DrugAI
2023/12/19
5010
Cell Systems | 深度学习开启蛋白质设计新时代
Research | 构建基于Transformer的集成框架实现蛋白相互作用位点准确预测
本文介绍来自浙江大学药学院朱峰教授课题组发表在国际综合性学术期刊Research上的最新工作。该研究提出了一种基于Transformer和门控卷积残差神经网络的集成框架EnsemPPIS,仅需要蛋白质的序列信息即可准确识别潜在的蛋白质-蛋白质相互作用(PPI)位点。所构建的模型不仅有效提取残基所处的全局和局部序列环境特征,还利用Transformer算法的自注意力机制从蛋白质序列上学习残基相互作用信息,进而使用集成学习策略将多种特征进行有机整合,在多个基准数据集上实现了卓越的预测性能,并展示出广泛的适用性,能够应用于全蛋白质组范围内的PPI位点预测。此外,模型的可解释性分析证明了该模型具备从蛋白质序列中捕捉局部结构内残基相互作用信息的能力。EnsemPPIS有望加深人们对生理病理机制的理解,助力蛋白质功能研究,推动靶向药物,尤其是蛋白类药物的研发。
DrugAI
2023/10/13
6390
Research | 构建基于Transformer的集成框架实现蛋白相互作用位点准确预测
清华AI蛋白质结构预测,连续4周夺得CAMEO第一
衡宇 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI蛋白质结构预测赛道,国产模型又有吸睛表现: 在蛋白质结构预测竞赛CAMEO上,有支队伍连续四周夺得全球第一。 达成这一成就的是来自清华大学智能产业研究院(AIR)的AIRFold。 △AIRFold 在7.23-8.20的评估中连续四周全球第一 CAMEO竞赛(Continous Automated Model Evaluation)与CASP并列为蛋白质结构预测领域的两大权威竞赛。 不同之处在于CASP两年一届,CAMEO则是持续举办,每周
量子位
2022/09/22
2170
清华AI蛋白质结构预测,连续4周夺得CAMEO第一
AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成
6亿多种蛋白结构预测结果,而且还是“蛋白质中的暗物质”——宏基因组蛋白(Metagenomic Proteins)。
量子位
2022/12/08
3420
AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
开发新药既昂贵又耗时。准确预测药物和靶标之间的相互作用可能会改变药物的发现方式。基于机器学习的蛋白质-配体相互作用预测已经显示出巨大的潜力。本文重点对基于序列和基于结构的蛋白质-配体相互作用机器学习方法进行了总结。因此,本文首先概述了该领域应用的数据集,以及用于表示蛋白质和配体的各种方法。然后,利用基于序列和基于结构的分类标准对经典机器学习模型和深度学习模型进行分类和总结,用于蛋白质-配体相互作用的研究。此外,还提出了这些模型的评价方法和可解释性。此外,深入探讨了蛋白质-配体相互作用模型在药物研究中的各种应用。最后,讨论了该领域目前面临的挑战和未来的发展方向。
DrugAI
2024/03/07
9820
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
基于人工智能(AI)的蛋白结构预测工具合集
蛋白质折叠涉及重新排列空间中的线性氨基酸序列,使其处于低能状态。仅基于氨基酸序列预测正确的三维结构非常困难,其原因在于肽键的自由组合会产生大量的可能性:即使对于一个小的蛋白质进行结构域顺序抽样,耗费的时间都将超过宇宙的年龄,因此计算预测是为了规避顺序抽样问题。在过去的40年里,计算预测一直在稳步改进,通过X 射线晶体学、核磁共振波谱和低温电子显微镜(cryo-EM)等实验确定蛋白质结构序列的同源性。自1994年起,每两年通过将计算预测方法应用于最新解析的蛋白质结构评估其性能。三年前,AlphaFold的首次实施已经是将人工智能应用于解析蛋白质结构的革命性进步。2020年,重新设计的AlphaFold近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。DeepMind团队提出了一种计算方法名为AlphaFold 2,即使在不知道相似结构的情况下,也可以以原子精度定期预测蛋白质结构。2021年7月15日,DeepMind团队在Nature杂志上发表了文章"Highly accurate protein structure prediction with AlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。2021年7月15日,华盛顿大学蛋白设计研究所David Baker教授课题组及其他合作机构在Science上发表论文"Accurate prediction of protein structures and interactions using a three-track neural network",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。
DrugAI
2022/11/28
8520
基于人工智能(AI)的蛋白结构预测工具合集
快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2
---- 新智元报道   编辑:好困 拉燕 【新智元导读】Meta的蛋白质预测模型ESMFold来了!整整150亿参数,堪称又大又快又好。 迄今为止规模最大的蛋白质语言模型问世了! 一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。 一年后,Meta带着速度快一个数量级的ESMFold来了。 不光速度快,模型还足足有150亿个参数。 LeCun发推称赞,这是Meta-FAIR蛋白质团队的伟大新成果。 共同一作Zeming Lin透露,30亿参数的
新智元
2022/07/26
8160
快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2
多尺度生成扩散模型预测蛋白-配体复合物结构的动态骨架
今天给大家介绍的是来自加州理工大学Zhuoran Qiao和NVIDIA团队发表在arxiv上的预印本《DYNAMIC-BACKBONE PROTEIN-LIGAND STRUCTURE PREDICTION WITH MULTISCALE GENERATIVE DIFFUSION MODELS》。作者提出了一种名为NeuralPLexer的扩散模型框架,这一框架能够利用蛋白的骨架模板以及分子图的输入,快速预测蛋白-配体复合物的结构以及它们的波动。另外,本文发现当NeuralPLexer应用于蛋白质折叠因为配体存在而显著改变的系统时,这一框架可以完善类结合态蛋白的结构。这一结果表明,数据驱动的方法可以捕获蛋白质和小分子实体之间的结构协作性,为新药物靶点的计算识别和功能小分子和配体结合蛋白的端到端可微设计展示了方向和前景。
DrugAI
2022/11/28
6270
多尺度生成扩散模型预测蛋白-配体复合物结构的动态骨架
Nat.Biotechnol. | 针对膜蛋白靶标的计算机辅助药物开发
今天为大家介绍的是来自Henning Stahlberg, Shuguang Yuan 和Horst Vogel团队的一篇综述。近年来,深度学习驱动的结构预测等进展使得计算生物学在膜蛋白靶标药物开发中的应用得到了显著推动。基于机器学习工具的最新蛋白质结构预测,为水溶性蛋白质和膜蛋白提供了出乎意料的可靠结果,但在开发针对膜蛋白靶点的药物时仍然存在局限性。膜蛋白的结构转变在跨膜信号传递中发挥着核心作用,常常受到治疗性化合物的影响。解决动态跨膜信号网络的结构与功能基础问题(特别是在原生膜或细胞环境中),仍然是药物开发面临的一个主要挑战。
DrugAI
2024/04/12
2490
Nat.Biotechnol. | 针对膜蛋白靶标的计算机辅助药物开发
AlphaFold3及其与AlphaFold2相比的改进
蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。
DrugAI
2024/05/13
2.1K0
AlphaFold3及其与AlphaFold2相比的改进
Nature | AlphaFold 3 预测了所有生命分子的结构和相互作用
AlphaFold 2的问世引发了蛋白质结构及其相互作用建模的革命,使得在蛋白质建模和设计领域有了广泛的应用。 Google DeepMind and Isomorphic Labs团队在5月8日Nature的最新论文“Accurate structure prediction of biomolecular interactions with AlphaFold 3”描述了最新推出的AlphaFold 3 模型,采用了一个大幅更新的基于扩散的架构,能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。新的 AlphaFold 模型在许多先前专门工具上显著提高了准确性:在蛋白质-配体相互作用方面比最先进的对接工具准确得多,比核酸特异性预测器在蛋白质-核酸相互作用方面具有更高的准确性,比 AlphaFold-Multimer v2.3.在抗体-抗原预测准确性方面显著更高。这些结果表明,在单一统一的深度学习框架内实现生物分子空间的高准确建模是可能的。
DrugAI
2024/05/13
5610
Nature | AlphaFold 3 预测了所有生命分子的结构和相互作用
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
DrugAI
2023/09/19
2480
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。
新智元
2023/01/08
4950
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
Nucleic Acids Res. | AlphaFold DB:大规模扩展蛋白质序列空间的结构覆盖范围
今天向大家介绍DeepMind团队发表在Nucleic Acids Research上的一篇Breakthrough文章“AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models”。作者在文章中介绍了一种名为AlphaFold DB的蛋白质数据库(https://alphafold.ebi.ac.uk),它是一个可公开访问的高精度蛋白质结构预测数据库。在 DeepMind提出的AlphaFold v2.0模型的支持下,它使已知蛋白质序列空间的结构覆盖范围实现了前所未有的扩展。该数据库提供了可编程访问及交互式可视化功能,包括预测的原子坐标、每个残基和成对模型置信度的估计,以及预测的对齐误差。AlphaFold DB的初始版本包含21种模型生物蛋白质组中的360,000多个预测结构,很快将扩展到涵盖UniRef90数据集中的大部分代表性序列(超过1亿个)。
DrugAI
2021/12/01
1.2K0
Nucleic Acids Res. | AlphaFold DB:大规模扩展蛋白质序列空间的结构覆盖范围
推荐阅读
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
6810
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
3550
RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(一)
9910
天壤单序列结构预测再获突破!助力生成生物学更快发展
3140
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
2060
Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野
2550
Cell Systems | 深度学习开启蛋白质设计新时代
5010
Research | 构建基于Transformer的集成框架实现蛋白相互作用位点准确预测
6390
清华AI蛋白质结构预测,连续4周夺得CAMEO第一
2170
AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成
3420
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
9820
基于人工智能(AI)的蛋白结构预测工具合集
8520
快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2
8160
多尺度生成扩散模型预测蛋白-配体复合物结构的动态骨架
6270
Nat.Biotechnol. | 针对膜蛋白靶标的计算机辅助药物开发
2490
AlphaFold3及其与AlphaFold2相比的改进
2.1K0
Nature | AlphaFold 3 预测了所有生命分子的结构和相互作用
5610
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
2480
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
4950
Nucleic Acids Res. | AlphaFold DB:大规模扩展蛋白质序列空间的结构覆盖范围
1.2K0
相关推荐
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文