首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

然而,蛋白质分子要大得多,通常包含1000多个重原子。而从1D序列到3D结构的预测是众所周知的具有挑战性的问题。因此,传统的一维蛋白质序列表示法不足以捕获3D空间中决定DPI预测的结构特征。...2.2将蛋白质以2D距离图表示 蛋白质可以简单地描述为由一系列氨基酸残基组成的线性序列,其中是一个利用one-hot表示的长度为20的向量,为蛋白质的氨基酸序列长度。...计算二维成对距离图的方式如下: ? 对于第个氨基酸残基,它的向量就表示为 ? ,对于整个蛋白质大分子,它的2D成对距离图即为 ?...2.4自注意力BiLSTM(Self-attentive BiLSTM) 每个药物分子的SMILES字符串被编码为一个两维嵌入矩阵M,矩阵中的词条向量彼此独立,为了获得分子中相邻词条之间的某种依赖性,使用...., 2018]的方法,选取了正负样本数量比为1:1的平衡集,得到了6,675种相互作用和1,998种蛋白质,然后利用了原文提到的五折交叉验证方法进行训练和评价。

92871

eLife | 利用进化信息预测蛋白质界面间残基-残基相互作用

为了减少冗余,作者为每个MSA(多序列比对)构造HMMs并且基于HHΔ( 衡量HMM-HMM相似性:如果一对基因的HHΔ小于0.5,则划分为同一簇)聚簇基因,生成了2340个非冗余基因簇。...(2)生成配对对齐 作者从同一基因组中构建成对的蛋白序列[x1, x2, …, xp; xp+1, …, xp+q] ,位置1:p和p+1:p+q分别对应两个蛋白质。...其中,Vi是编码位置特异性氨基酸倾向的向量,Wij表示编码位置i和j处氨基酸的耦合矩阵。通过最大化对齐的正则化伪似然度,从比对序列中获得这些参数,如下: ?...图3 从接触预测到结构建模 预测的接触对于建模组建蛋白质复合物有帮助吗?作者在具有18种蛋白质复合物(复合物的部分结构已知)的对接测试集上进行评估。...作者使用提出的新方法对细菌中的28种蛋白质复合物中的蛋白质-蛋白质界面和细菌核糖体中蛋白质亚基之间的界面进行了预测,与真实结构比较后,得到了较高的准确率。

1.2K70
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    ProGen:蛋白质生成语言模型

    今天给大家介绍的是一项由硅谷Salesforce Research的Ali Madani等人和斯坦福的Possu Huang教授课题组合作的工作,他们在这篇论文中提出的一种蛋白生成语言模型ProGen。...,并允许它进行基于一级序列相似性、二级结构准确率和构像能量的细粒度控制生成。...通过序列相似性、二级结构准确度和构象能量等指标评估时,ProGen模型生成的蛋白质满足所需的结构和扩展功能。...为了评估生成质量,作者从以下三个层次进行分析:(1)一级序列相似性。一级序列相似性是利用Biopython包计算出的全局成对序列对其得分,其结果根据蛋白质长度进行标准化。(2)二级结构。...下图显示了标签对序列相似性的影响,至少与3个条件标签相关的序列才开始超过50%的突变基线,并且随着氨基酸上下文的增加,至少有8个条件标签的序列才能接近25%的突变基线。

    1.2K60

    生物界“AlphaGo”来了!蛋白结构预测AlphaFold大胜传统人类模型

    在“蛋白质结构预测奥运会”CASP比赛中,力压其他97个参赛者。《卫报》报道称,AlphaFold预测出了43种蛋白质中25种蛋白质的最精确结构。在同一类别中排名第二的队伍,只预测出了3种。 ?...随着我们通过模拟和模型获得更多关于蛋白质形状和它们如何运作的知识,会使药物开发方面更容易,同时也会降低相关的实验成本。...挑战在于,基因序列中只包含蛋白质组成部分氨基酸残基的序列信息,这些氨基酸残基会形成长链。...这两种方法都依赖深度神经网络,需要训练深度神经网络从基因序列中预测蛋白质的两种特性: 1) 成对的氨基酸之间的距离; 2) 连接这些氨基酸的化学键之间的角度。...第二种方法是通过梯度下降法优化得分,这是机器学习中常用的一种数学技术,可以进行小的、增量的改进,从而得到高精度的结构。

    51330

    从水果连连看到两条序列比对

    序列比对最终结果可以用比对得分来评估,然后通过统计学分析后,得到序列间的相似性与同源性,以及它们的显著性水平即可进行下一步生物信息分析。...在应用上,如果找到了不同序列之间的相似性,那就可以推断功能或建立进化关系,以此更好地了解基因的起源和功能。...反之,如果找到序列间的不相似性,就能推断插入,突变,缺失等生物学过程,比如推断新冠病毒的突变位点。...为了获得最佳的比对序列,就需要比较序列间的比对得分大小。...在Dayhoff 和她的小伙伴研究过程中,发现将突变概率矩阵进行 250 次方处理后得到的 PAM 250,适合用于研究远缘蛋白质进化,换句话说这是一个研究这种蛋白质最合适的时间尺度。

    68731

    从水果连连看到两条序列比对

    序列比对最终结果可以用比对得分来评估,然后通过统计学分析后,得到序列间的相似性与同源性,以及它们的显著性水平即可进行下一步生物信息分析。...在应用上,如果找到了不同序列之间的相似性,那就可以推断功能或建立进化关系,以此更好地了解基因的起源和功能。...反之,如果找到序列间的不相似性,就能推断插入,突变,缺失等生物学过程,比如推断新冠病毒的突变位点。...为了获得最佳的比对序列,就需要比较序列间的比对得分大小。...在Dayhoff 和她的小伙伴研究过程中,发现将突变概率矩阵进行 250 次方处理后得到的 PAM 250,适合用于研究远缘蛋白质进化,换句话说这是一个研究这种蛋白质最合适的时间尺度。

    1.1K30

    Science | 在“放松”序列空间中实现可扩展的蛋白设计

    作者通过实验生成并表征了100多种蛋白质,其中三种高分辨率的晶体结构和两张包含多达1000个氨基酸的设计单链蛋白的冷冻电子显微镜密度图验证了该方法的准确性。...然后,将损失相对于输入序列进行反向传播,获得梯度。利用该梯度来更新输入序列,使其更接近目标。用获得的梯度更新序列通常不会生成单一编码的序列,而是生成类似logit或位置特异性评分矩阵(PSSM)。...作者通过计算均方根偏差(RMSD)和模板匹配(TM)评分来评估与初始RSO骨架的相似性,选择最匹配的序列。...RSO成功地为多达1000个氨基酸的蛋白质生成了理想的设计,1000个氨基酸的中位TM评分达到了0.89(图2C)。...其余76种蛋白则采用先前描述的高通量策略进行表达和纯化,其中58%的蛋白质分子量与通过分子量校准的SEC所得预期值相符(图3B)。 图 3 作者还设计了一组由500到1000个氨基酸组成的较大蛋白质。

    13610

    Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革

    基序和结构域的各种组合与重复构建了更加复杂的结构,从而决定蛋白质的生物功能,类似于人类语言中句子传达的含义。 除了结构层次的相似性,蛋白质和人类语言还有另一个关键的相似点——「信息完整性」。...在将完整的多序列对齐结果(MSA)作为输入的情况下,ESMFold还能获得与RoseTTAFold相当的性能。 此外,ESMFold对低困惑度序列的预测结果与SOTA模型不相上下。...长期以来,了解蛋白质之间关系的唯一方法是明确的成对或多序列比对,这种方法依赖于假定的进化联系,将一种蛋白质的残基映射到另一种蛋白质的残基上。...但最近,一种更通用的方法正在形成,它不太关注进化的谱系,而更关注蛋白质的基本功能和结构。 如果这种进展速度继续保持下去,我们就有可能获得突破性的发现——发现熟悉蛋白质的未知面,甚至合成全新的蛋白质。...随着这些模型变得越来越复杂,了解它们是如何处理和表示蛋白质序列至关重要。 特别是对于药物研发等应用来说,确定模型如何预测结合位点非常关键。 蛋白质建模的下一步涉及开发更多受生物学启发的模型。

    23810

    详解序列比对算法 01 | 两条序列比对与计分矩阵

    序列比对最终结果可以用比对得分来评估,然后通过统计学分析后,得到序列间的相似性与同源性,以及它们的显著性水平即可进行下一步生物信息分析。...在应用上,如果找到了不同序列之间的相似性,那就可以推断功能或建立进化关系,以此更好地了解基因的起源和功能。...反之,如果找到序列间的不相似性,就能推断插入,突变,缺失等生物学过程,比如推断新冠病毒的突变位点。...为了获得最佳的比对序列,就需要比较序列间的比对得分大小。...在Dayhoff 和她的小伙伴研究过程中,发现将突变概率矩阵进行 250 次方处理后得到的 PAM 250,适合用于研究远缘蛋白质进化,换句话说这是一个研究这种蛋白质最合适的时间尺度。

    8.2K44

    生化小课 | 蛋白质序列有助于阐明地球上生命的历史(含蛋白质的结构:一级结构 小结)

    每种蛋白质的功能都依赖于其三维结构,而三维结构又主要由其一级结构决定。因此,蛋白质序列传递的生化信息仅受限于我们对结构和功能原理的理解。...在不同层面的探究中,蛋白质序列开始告诉我们蛋白质是如何进化的,并最终告诉我们这个星球上的生命是如何进化的。...序列和功能的相似性表明EF-1α和EF-Tu是具有共同祖先的蛋白质家族的成员。蛋白质家族的成员称为同源蛋白质或同源物。同源物的概念可以进一步细化。...请注意,没有明显的比对分数并不一定意味着两种蛋白质之间不存在进化关系。正如我们将在第4章中看到的,三维结构相似性有时会揭示序列同源性已被时间抹去的进化关系。...特定氨基酸残基的化学性质往往对蛋白质的功能至关重要。 > 大多数氨基酸序列是从基因组序列和质谱法中推导出来的。从经典的蛋白质测序方法中获得的方法在蛋白质化学中仍然很重要。

    84960

    腾讯提出蛋白质研究AI模型,预测准确率刷新纪录,入选Nature子刊

    顶视图描述蛋白质之间的相互作用,每种蛋白质就是一个节点,蛋白质之间的相互作用就是图的边;而底视图描述每种蛋白质内部的信息,关键氨基酸或残基组合就是图的节点,物理位置相邻的残基以边相连。...(a)蛋白质序列通常能提供关于PPI的细节信息,但它也可能导致PPI的预测准确性降低,例如不具备序列相似性的两个蛋白质(SERPINA1、3)可能和同一蛋白质(ELANE)在相同作用界面发生PPI;(b...据介绍,模型的架构设计主要有两个层面的考虑: 首先,在蛋白质组学层面,蛋白质序列信息通常能提供关于PPI的细节信息,但是在预测PPI方面准确率较低。...例如,两种蛋白SERPINA1、SERPINA3分别与ELANE蛋白在同一局部位置发生相互作用,SERPINA1、3之间结构相似性较高,但是序列相似性较低(见图1a)。...(a)对残基重要性评分时,目标蛋白质结合面上的残基获得高分(红色),其他残基获得低分(蓝色);(b)对两种蛋白质的残基进行重要性评分,正确识别为具有催化功能的残基叠加红色,错误识别叠加黑色;(c)将5a

    24420

    基于计算学方法的蛋白质相互作用预测综述

    在本文中,我们描述了PPI预测所需的各种蛋白质相关数据库,介绍了现有的各种计算学模型的优缺点,然后描述了常用的实验方案和模型性能评价指标,并介绍了几种在线预测工具,最后阐明了预测PPI的未来发展方向。...此外,在这些数据库中,MINT、IntAct和STRING还提供了从不同来源获得的PPI分数,用来评估相互作用的可靠性。在实际应用时,也可以通过挑选得分较高的蛋白质对来构建更可靠的PPI网络。...相关蛋白质序列信息可从UniProt、PIR、SWISS-PROT、NRL3D和TrEMBL数据库获得,它们都包括了各种生物的蛋白质序列信息和相关注释信息。...此类模型能够基于序列从多种角度预测相互作用,如:序列相似性和共同进化信息,并通过不同的方法丰富预测信息,更准确的识别有用的蛋白质序列,进一步提升模型的预测性能。...因此,如何有效地整合多种生物信息资源以进行蛋白质相互作用预测仍然是未来需要解决的主要挑战之一。

    3.6K23

    使用深度学习来注释蛋白质宇宙

    尽管现有方法已成功预测数亿种蛋白质的功能,但仍有更多功能未知——例如,至少有三分之一的微生物蛋白质没有得到可靠的注释。...该交互式工具允许用户在浏览器中输入序列并实时获得预测蛋白质功能的结果,无需设置。 在这篇文章中,我们将概述这一成就以及我们如何在揭示更多蛋白质世界方面取得进展。...trimmed_clustered.gif 为了防止这种情况发生,必须使用多个单独的设置来评估模型性能。 对于每次评估,我们将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。...第一个评估包括一个聚类分裂训练和测试集,与先前的文献一致。 在这里,蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集。 因此,每个测试示例与每个训练示例至少有 75% 的差异。...对于其中的每一个,我们都包括基于上述序列比对相似性的模型性能分层。 我们将这些基线与 ProtCNN 和 CNN 集合 ProtENN 进行了比较。

    35420

    比“生物界AlphaGo”更厉害,MIT:给我一个氨基酸序列,就能告诉你蛋白质功能

    如何预测蛋白质功能 研究人员先让模型学习一些特定蛋白质的功能,将蛋白质结构编码成表示,用不同蛋白质结构相似性来监督模型。...他们根据蛋白质结构分类数据库(SCOP),对数千各类别、大约22,000种蛋白质进行模型训练。然后,将蛋白质结构与氨基酸序列编码成嵌入(embedding)这种数字表示,随机组对送入模型中。...像单词对语义的影响一样,氨基酸是蛋白质的“单词”,蛋白质就是整个“句子”,嵌入包含着每个氨基酸序列与另一个氨基酸序列的相似性信息,机器学习模型可以根据嵌入预测每个氨基酸对整个蛋白质功能的影响。...尽管人类已经研究了几十年蛋白质,发明了很多探测手段,但是真正能准确测量出结构的蛋白质只有很小一部分,已经的几百万种蛋白质中,我们只知道其中几万个的结构,研究每个结构都需要花费数万美元。...过去我们需要知道蛋白质的结构才能研究它的功能,MIT希望利用这项技术让预测蛋白质结构的研究边缘化,即使只知道氨基酸序列也能给出蛋白质的功能。

    72620

    ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者

    案例一:基于部分序列的条件设置(图1C-1)。包含预先指定多肽的蛋白质生成对应于各种用例,例如为给定的功能基序生成支架、填充抗体CDR环或预先施加专家知识。...作者研究了DPLM是否能够生成具有新颖结构的序列,并通过与PDB中的已知结构进行结构相似性比较来进行评估,使用TMScore进行测量。...在图2H中,作者展示了DPLM生成的各种长度的蛋白质,从100到1000。随着蛋白质长度的增加,其结构的复杂性也会增加,包含丰富的螺旋和片层结构。...各种蛋白质预测下游任务的性能 作者在多种蛋白质预测任务中评估了DPLM,包括蛋白质功能预测(热稳定性和金属离子结合)、蛋白质定位预测(DeepLoc)、蛋白质注释预测(EC和GO)、蛋白质-蛋白质相互作用预测...图4展示了所提出的离散分类器引导如何帮助预训练的DPLM生成满足提供的二级结构注释的样本,这些注释是从模板天然蛋白质中提取的。

    25710

    J. Cheminform. | 基于化学基因组学中深度和浅层学习预测药物特异性

    作者提出一种具有深度学习功能的化学基因组神经网络(CN),以分子图和蛋白质序列编码器学习的分子和蛋白质表示形式的组合作为输入。...QSAR方法可以预测给定蛋白质的相互作用,而化学基因组模型经过训练可以同时预测几种蛋白质的相互作用,其基本思想是:靶相互作用可以受益于其他靶与其他分子之间已知的相互作用。...(分子-蛋白质)对的成对潜在表示的操作或神经网络模块;(4)MLPpair(对于成对的多层感知器,也称为前馈神经网络(FNN)用来预测(分子-蛋白质)对是否相互作用。...蛋白质序列编码器 用神经网络编码器编码蛋白质需要定义氨基酸的输入属性,例如“one-hot”编码。...因此,作者考虑了两个将蛋白质和分子的这些基于专家的知识和学到的特征集成到最终的成对表示中的体系结构。

    51240

    . | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能

    在这里作者展示了如何为机器学习生成的蛋白质变体实现这种筛选,这些蛋白质变体能在细胞内形成时空模式。...在大肠杆菌中,MinD和MinE两种蛋白质通过ATP驱动的反应-扩散动力学参与,造成膜上蛋白质在细胞两极之间的振荡,从而在细胞中部形成分裂环,决定分裂位置。...重要的是,作者展示了这种“分而治之”的方法优于基于序列相似性或HMM轮廓的传统功能估计方法。...作者用一个修改过的ELBO损失函数训练了MSA-VAE,并评估了单个和成对的氨基酸频率分布的性能。这一度量的高相关性表明,模型在生成序列时考虑了进化约束。...转录-翻译因子通常可以从实验室自制的细胞裂解液或商业可购买的无细胞蛋白质合成试剂盒中获得。这种无细胞表达系统有巨大的潜力在各种实验设置中进一步使用。

    16710

    蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质

    科学家表示,这项新技术可能比获得诺贝尔奖的蛋白质设计技术定向进化更强大,它将通过加速可用于几乎任何事物的新蛋白质的开发,这些新蛋白质几乎可以用于从治疗到降解塑料的任何领域。...,该研究团队开发了 ProGen,这是一种蛋白质语言模型,在数百万个原始蛋白质序列上训练,可生成跨多个家族和功能的人造蛋白质。...图 1:使用条件语言建模的人工蛋白质生成。(来源:论文) ProGen 通过学习在给定原始序列中过去的氨基酸的情况下,预测下一个氨基酸的概率来迭代优化,没有明确的结构信息或成对协同进化假设。...训练后,ProGen 可以提示从头开始为任何蛋白质家族生成全长蛋白质序列,与天然蛋白质具有不同程度的相似性。...在第一批由 Tierra Biosciences 进行体外筛选的 100 种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶,HEWL)进行比较

    52130

    Advanced Science | 多模态蛋白表征方法及其迁移性量化

    该工作提出了一种多模态蛋白质表征方法,通过融合多种蛋白质模态,包括序列、结构和基因本体(GO)信息来实现对蛋白的高效表征。...因此,如何将蛋白质的序列、结构和功能进行有效融合,以掌握更丰富的多模态表征信息,进而提升下游任务的性能,如蛋白质功能和蛋白-蛋白结合预测等,是一个重要的挑战。...研究者计算了这些下游任务之间的成对距离,并观察到了任务间特征空间分布和适应性之间的强相关性(图2)。...现阶段,由于Alphafold2的贡献,可使用蛋白质结构数据迅速增长。因此,多模态蛋白质模型将具有更广泛的适用性。研究表明,整合多种蛋白质模态可以在各种下游任务上获得更好的性能。...因此,研究团队分别提取了每种蛋白质模态的特征,包括序列和结构数据的进化和空间信息。然后,根据不同模态的特性,它们在token或global级别进行对齐。

    41420

    Nat. Methods | 基于几何深度学习解密蛋白分子表面的相互作用指纹

    图1 此项研究工作展示了MaSIF的三个概念验证应用程序(图1e):(1)MaSIF-ligand:配体口袋相似性比较;(2)MaSIF-site:蛋白质表面中的蛋白质-蛋白质相互作用(PPI)部位预测...为了获得更稳定的预测,对每个样腔进行了100次采样,并将得到的100个预测取平均值,以获得最终预测。...从天然复合物中提取PPI结构界面,并计算所有界面的成对TM-align得分矩阵。然后,使用scikit-learn的层次聚类根据TM-align分数对结构进行层次聚类。...在所有比对之后,将针对所有N种蛋白质的PatchDock转换合并,并根据PatchDock的默认几何分数进行评分。...尽管在测试和训练集中缺少口袋的全局序列同源性和结构相似性,但是MaSIF-ligand可以破译表面相互作用指纹图谱以确定每个口袋的结合偏好,而无需明确考虑潜在的氨基酸或基于序列的特征。

    1.5K51
    领券