首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google Research进军蛋白质结构预测:为Pfam数据库新增680万标注数据

例如,著名的蛋白质家族数据库Pfam包含许多高度详细的计算注释,描述了一个蛋白质域的功能,如球蛋白和胰蛋白酶家族。...随着公共数据库中蛋白质序列的数量和多样性继续迅速增加,准确预测高度多样化氨基酸序列的功能变得越来越紧迫。...研究人员把新数据集发布为Pfam-N。 为了鼓励在这个方向上的进一步研究,研究人员发布了ProtENN模型和一篇类似distill的交互式文章。...在训练过程中,把这个问题看作是一个多类分类任务,类别标签包含所有从Pfam数据库中提取的17929个类。 下一步就需要一个模型将蛋白质序列与蛋白质功能联系起来。...此外,基于对齐的方法是计算密集型的,如果想要把这个算法应用于大型数据集,如元基因组数据库MGnify,其中包含超过10亿条蛋白质序列,成本过高的话就失去了实用价值。

64610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Nat. Biotechnol. | 使用深度学习来注释蛋白质宇宙

    虽然这些方法非常成功,但广泛使用的蛋白质家族数据库Pfam在过去5年中增长了不到5%,而且至少有三分之一的微生物蛋白质不能通过与功能特征序列的比对而被注释,这阻碍了利用来自不同生物体的数据的能力。...本文训练深度学习模型(ProtCNN),以准确预测未对齐氨基酸序列的功能注释,这些注释基于从蛋白质家族数据库 Pfam 的17,929 个家族构建的严格基准评估。...这种方法让主流数据库 Pfam 中注释的蛋白质序列覆盖范围扩大了9.5%,超过了过去十年的新增注释,并预测了 360 种人类蛋白质组蛋白的功能。...2 网络架构 中央图展示了输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络(ResNet)架构,ProtCNN 对氨基酸序列进行编码,填充后,通过卷积神经网络在Pfam数据库的监督下学习向量表示...图 2 模型在Pfam-seed上的表现 ProtREP ProtCNN 在Pfam数据库的监督下学习氨基酸序列的向量表示,无论其未对齐长度如何。

    42820

    查询蛋白结构域

    方法(1)Pfam 数据库 Pfam是一个蛋白家族及 功能域的数据库,而不是蛋白质本身的数据库,这个数据库包括蛋白家族的注释 和由隐马尔科夫模型建立的、具有相同注释结果的所有序列的多序列比对结果。...Pfam 与其他蛋白相关的数据库的不同之处在于,它以蛋白质的功能域 或者是蛋白家族作为分类检索的标准。 Pfam中的条目可以称为4个种类,除了蛋白 家族和功能域外,还有本定重复序列,以及Motif。...Pfam数据库包括Pfam-A和Pfam-B两个子 库,其中Pfam-A的建立及与其他蛋白数据库中的 经手工注释具有相同分列标签的蛋白序列。...Pfam参考的是蛋白数据库在最初的1.0版为 Swiss-Prot数据库,而在13年3月最新发布的27.0 版中,Pfam参考的主要是UniProtKB数据库。...步骤2:在Pfam 数据库导入UniProtKB identifiers ? 步骤3:基于上述步骤,我们就可以得到如下的结果。 ?

    1.7K11

    谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

    Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。...Pfam 数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。 这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。...后来,人们引入了基于 signature 的方法,PROSITE 数据库对在具有特定功能的蛋白质中发现的短氨基酸「基序」进行分类。...在这里至关重要的是,profile HMM 允许更长的 signature 和更模糊的匹配,目前用于更新流行的数据库,如 Interpro 和 Pfam。...Pfam-seed 模型的性能。 ProtCNN 的架构。

    26820

    谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

    Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。...Pfam 数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。 这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。...后来,人们引入了基于 signature 的方法,PROSITE 数据库对在具有特定功能的蛋白质中发现的短氨基酸「基序」进行分类。...在这里至关重要的是,profile HMM 允许更长的 signature 和更模糊的匹配,目前用于更新流行的数据库,如 Interpro 和 Pfam。...Pfam-seed 模型的性能。 ProtCNN 的架构。

    26730

    谷歌 AI 加入蛋白质解析大军!ProtENN 模型助增 680 万个蛋白质注释词条,登顶 Nature 子刊

    例如,被广泛使用的蛋白质家族数据库Pfam便囊括了大量详细描述蛋白质结构功能的计算注释,例如珠蛋白与胰蛋白酶家族。但发展至今,目前至少仍有三分之一的微生物蛋白质的注释有待完善。...1 蛋白质注释根据谷歌 AI 介绍,他们所提出的 ProtENN 方法可以帮助在 Pfam 的蛋白质功能注释集中添加大约 680 万个条目,大约相当于过去十年的新增条目总和,将 Pfam 的覆盖范围扩大了...他们将其命名为:Pfam-N。在计算机视觉中,模型通常首先用于图像分类任务的训练,如 CIFAR-100,然后将其扩展到更专业的任务,如物体检测和定位。...受此启发,谷歌团队也决定开发一个蛋白质域分类模型,在给定蛋白质结构域的氨基酸序列的情况下,从 17,929 个类别(所有类别都包含在 Pfam 数据库中)中预测单个标签。...另外,基于比对的方法需要密集的计算量,将它们应用于大型数据集(例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify)时,成本会非常高昂。 2 谷歌 AI 怎么做?

    74610

    热点综述 | 利用宏基因组数据促进蛋白质结构预测和新功能蛋白的发现

    其还提供多种搜索功能,例如通过BLAST、KEGG酶和途径、CATH families和Pfam domains搜索数据库中目标序列的同源蛋白。...这一改进导致使用GREMLIN对大约20%的Pfam家族的蛋白质接触图进行更准确的预测,进而通过Rosetta生成更准确的3D结构。在此之后,整合多宏基因组数据源的结构预测工具已经被开发出来。...在最近一项有趣的研究中,针对一组约2000个没有结构模板的Pfam家族,研究了微生物生态位与同源蛋白质家族之间的联系。...事实证明,当只使用一个或几个与目标蛋白质家族相关的特定生物群落时,Pfam家族的结构建模更精确。...这促使我们提出了一个名为MetaSource的预测模型,该模型能够识别一个或一组生物群落,从而更好地构建MSA,并对一个给定的Pfam家族进行建模。

    1.2K21

    生物信息学数据库及在线工具汇总 (更新)

    文章目录 核酸数据库 非编码RNA数据库 1.非编码小RNA数据库 2.长非编码RNA数据库: 3.非编码RNA家族数据库 4.非编码RNA序列数据库 蛋白质数据库 0.蛋白质信息 1.蛋白序列数据库...[http://rfam.xfam.org/] 类似于Pfam的RNA家族注释数据库 4.非编码RNA序列数据库 RNAcentral [https://rnacentral.org/ ] 蛋白质数据库...0.蛋白质信息 Human protein atlas [http://www.proteinatlas.org/ ] 人体蛋白在细胞、组织、病理条件下的表达 1.蛋白序列数据库 Pfam...[http://pfam.xfam.org/] Pfam是蛋白质家族的数据库,包括使用隐马尔可夫模型生成的注释和多序列比对。...Pfam [http://pfam.xfam.org/] 最专业 ProDom [http://prodom.prabi.fr/] CCD [http://www.ncbi.nlm.nih.gov

    2.2K25

    使用深度学习来注释蛋白质宇宙

    例如,广泛使用的蛋白质家族数据库 Pfam 包含许多描述蛋白质域功能的高度详细的计算注释,例如珠蛋白和胰蛋白酶家族。...随着公共数据库中蛋白质序列的数量和多样性继续快速增加,准确预测高度不同序列的功能的挑战变得越来越紧迫。...这种我们称之为 ProtENN 的方法使我们能够在 Pfam 著名且值得信赖的一组蛋白质功能注释中添加大约 680 万个条目,大约相当于过去十年的进展总和,我们将其作为 Pfam-N 发布 ....我们将问题描述为一个多类分类任务,在给定蛋白质结构域的氨基酸序列的情况下,我们从 17,929 个类别(所有类别包含在 Pfam 数据库中)中预测一个标签。...此外,基于比对的方法是计算密集型的,并且将它们应用于大型数据集,例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify,成本可能过高。

    34920

    用于药物发现的抗体表征学习

    无标签的序列数据 PfamPfam是知名的精选蛋白质家族数据库,其中包含单个蛋白质结构域的氨基酸原始序列。...OSA(Observed Antibody Space):数据库是一个收集和注释免疫组库以用于大规模分析的项目。它包含来自超过 75 项研究的超过 10 亿个原始抗体序列。...实验 预训练模型比较 为了了解训练数据如何影响语言模型的性能,作者训练了三个 BERTTransformer 模型(1)在 Pfam 数据集上训练的 Pfam 模型;(2)在OAS重链序列上训练的重链模型...Pfam 模型、重链模型和轻链模型的平均困惑度分别为 13.1508、1.5990 和 1.4316。 为了在下游任务上比较这些预训练的语言模型,作者探索了两种迁移学习方法。...对于接下来特征表示比较的实验,预训练的语言模型是都是在 Pfam 数据上训练的模型。

    59750

    Nature Methods | 蛋白质序列的深度嵌入和比对

    另一方面,分布内设置模拟了我们希望从已知Pfam域对齐序列的常见情况。...为此,他们遵循与探测比对性能时相同的实验设置,即一方面考虑Pfam扩展域对或Pfam域对,另一方面考虑来自训练时间(在分布设置中)看到的家族的候选同源序列对,或来自训练时间中未看到的家族(在分布设定之外...为了根据检测其相关性的“难度”对真实同源物进行排序,来自同一Pfam家族的同源物再次通过PID进行分层,而属于同一Ppham家族但不同Pfam家庭的(远程)同源物,其基本真实PID未知,都被分配到一个特殊的...当检测属于同一Pfam族但不同Pfam家族的序列的同源性时(“计划”bin),基线的表现仅略优于随机猜测。在分布分割中,Pfam域和扩展域的AUROC分别达到0.611和0.550。...关于用于训练DEDAL的一组比对,作者发现,当他们希望DEDAL能够预测准确的局部比对时,使用Pfam扩展域而不是Pfam域是有益的。

    60020

    Cancer3D*v2 :癌症突变的三维模式的互作分析

    of cancer mutations in cancer subsets Nucleic Acids Res IF: 11.147 Published: 2015;v2.0 2019 Cancer3D数据库是最早将错义突变等基因组数据与包含这些突变的蛋白质的结构域和三维结构信息相结合的数据库之一...使用最新的Pfam HMM模型匹配蛋白质域。使用Foldindex预测内在无序区域。使用BLAST来匹配数据库中所有基因的三维结构序列,并将突变的位置映射到蛋白质结构上。 3....②蓝色方框表示Pfam域,紫色方框表示PDB的位置。蛋白质的结构特征蓝色为无序区域,红色为折叠区域,绿色为交互区域。 选择单独的PDB文件以查看详细信息。...(3) Tutorial 数据库提供的使用说明。 小编总结 Cancer3D数据库允许用户分析癌症突变的三维结构及其临床相关信息背景下的突变分布模式。...如果你正好在研究种族、性别和年龄与多种癌症的进展和预后以及突变模式的相关性,快来看看Cancer3D数据库能为你提供哪些帮助呀!

    34820

    蛋白质工程中的一些数据库

    遇到一本新书《A Practical Guide to Protein Engineering》--Tuck Seng Wong、Kang Lan Tee,在里边学到些数据库知识,记录在此,供诸君参考。...个单位):https://web.expasy.org/protparam/ SignalP(预测信号肽及其切割位点):http://www.cbs.dtu.dk/services/SignalP/ Pfam...(鉴定蛋白质家族、功能域及其功能位点):https://pfam.xfam.org/ PROSITE(同上):https://prosite.expasy.org/ InterPro(同上):http:...:相似性较差 4,蛋白质结构数据库 PDB数据库:https://www.rcsb.org/ BMRB(核磁数据,储存蛋白、多肽、核酸和其它生物分子的核磁谱):http://www.bmrb.wisc.edu...变性后复性,8 M尿素,6 M 盐酸胍 ii),再折叠,高pH(>12),6 M n-丙醇,6 M 巯基乙醇 iii),非变性溶剂, 0.4% 肌氨酰,5% DMSO,5% n-丙醇 8,蛋白质分析 发光基团数据库

    1.3K30
    领券