首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

将蛋白质序列的权重与正确的序列配对

蛋白质序列的权重与正确的序列配对是指将蛋白质序列的权重与其对应的正确序列进行匹配。蛋白质序列是由氨基酸组成的,而每个氨基酸都有不同的重要性和贡献度。因此,为了更准确地预测蛋白质的结构和功能,需要对蛋白质序列进行加权处理。

在蛋白质序列的权重与正确序列配对的过程中,可以采用不同的方法和算法。其中一种常用的方法是使用机器学习和深度学习技术,通过训练模型来学习蛋白质序列的权重分布。这些模型可以根据已知的正确序列和其对应的权重进行训练,从而建立起权重与正确序列之间的关联。

蛋白质序列的权重与正确序列配对在生物信息学和蛋白质研究领域具有重要的应用价值。通过准确地预测蛋白质序列的权重,可以更好地理解蛋白质的结构和功能,从而为药物设计、疾病诊断和治疗等领域提供有力的支持。

腾讯云提供了一系列与蛋白质序列分析和计算相关的产品和服务,包括:

  1. 腾讯云基因组测序分析平台:提供基因组测序数据的存储、分析和解读服务,可用于蛋白质序列的权重与正确序列配对等研究。
  2. 腾讯云人工智能平台:提供强大的人工智能算法和工具,可用于蛋白质序列的权重与正确序列配对的机器学习和深度学习模型训练。
  3. 腾讯云数据库服务:提供高性能、可扩展的数据库服务,可用于存储和管理蛋白质序列及其对应的权重和正确序列数据。
  4. 腾讯云容器服务:提供基于容器技术的云原生应用部署和管理服务,可用于部署和运行与蛋白质序列分析相关的应用程序。
  5. 腾讯云安全产品:提供网络安全防护和威胁检测服务,保障蛋白质序列数据的安全性和完整性。

以上是腾讯云相关产品和服务的简要介绍,更详细的信息和产品介绍可以参考腾讯云官方网站:https://cloud.tencent.com/

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • AlphaFold3及其与AlphaFold2相比的改进

    蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。

    01

    基于知识指令的人类语言-蛋白质语言对齐模型

    近年来,大语言模型的出现革新了自然语言处理领域。ChatGPT,Claude-2等模型已经深入到人们的日常生活中了如语言翻译、信息获取、代码生成。但这些语言模型在自然语言和代码语言上极强的处理能力并不能迁移到生物序列(如蛋白质序列)上。当让其描述一条蛋白质序列的功能或者生成一条符合某种性质的蛋白质,它们常常不会遵从指令,或者给出错误答案。文章认为这一现象的出现是因为当前蛋白质-文本对数据集存在两个缺陷:(1)缺乏指令信号;(2)数据注释的不均衡。这两个缺陷导致模型对蛋白质序列建模效果不好且无法有效理解用户的意图。为了弥补这些缺陷,本文提出了一种自动构建蛋白质-文本指令数据集的方法,通过在这个数据集上进行指令微调,模型可以大幅提升蛋白质序列的理解能力和指令跟随能力。本文首次探索了蛋白质语言和人类语言的双向生成能力,展示了将生物序列作为大语言模型能力一部分的潜力,为其更好的服务科学领域提供可能。

    01

    Nat. Methods | 张阳团队开发远超AlphaFold2精度的蛋白互作结构预测算法

    基因是构造生命的基本蓝图,而蛋白质则是生命功能的执行者和生命现象的体现者。细胞中的蛋白质主要是通过与细胞内其它蛋白质的相互作用来实现其绝大部分生物学功能。因此,蛋白质-蛋白质相互作用(简称“蛋白质互作”)在生命功能的实现以及生物的进化过程中都扮演极其重要的角色。例如,抗体和抗原蛋白相互作用可以帮助生命个体识别和抵御外界病原体的入侵;受体和配体蛋白相互作用可以触发细胞信号传导通路;酶蛋白和底物相互作用可以催化新陈代谢的进程等等。它们在生物功能上的这种特殊的重要性,也使得蛋白质互作成为许多现代药物设计的关键靶点。

    01

    J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综

    蛋白质-蛋白质相互作用(PPIs)是许多蛋白质功能的基础,了解蛋白质-蛋白质相互作用的接触和构象变化对于将蛋白质结构与生物功能联系起来至关重要。虽然难以通过实验检测,但分子动力学(MD)模拟被广泛用于研究蛋白质-蛋白质复合物的构象组合和动力学,但在采样效率和计算成本方面存在很大的局限性。近日发表在Journal of Chemical Theory and Computation的论文,“Exploring the conformational ensembles of protein-protein complex with transformer-based generative model”,根据分子动力学模拟获得的蛋白质-蛋白质复合物构象系综训练了一个基于Transformer的生成神经网络,以直接生成具有物理真实性的新蛋白质-蛋白质复合物构象。研究人员展示了如何使用基于Transformer架构的深度学习模型,通过 MD 模拟探索蛋白质-蛋白质复合物的构象系综。结果表明,学习到的潜在空间可用于生成蛋白质-蛋白质复合物的未采样构象,以获得补充原有构象的新构象,可作为分析和增强蛋白质-蛋白质复合物构象的探索工具。

    01

    J. Chem. Inf. Model. | 通过习得的界面表征验证蛋白-蛋白应界面

    今天为大家介绍的是来自Attila Gursoy团队的一篇论文。蛋白质是生物世界的重要组成部分,具有多种功能。它们通过界面与其他分子相互作用,并参与至关重要的细胞过程。这些反应的破坏可能对生物体产生负面影响,这突显了研究蛋白质-蛋白质界面以开发针对性治疗方法的重要性。因此,开发一种可靠的方法来研究蛋白质-蛋白质相互作用至关重要。在这项工作中,作者提出了一种利用学习到的界面表示来验证蛋白质-蛋白质界面的方法。该方法涉及使用基于图的对比autoencoder架构和transformer来从无标签的数据中学习蛋白质-蛋白质交互界面的表示,然后通过图神经网络使用学习到的表征进行验证。作者的方法在测试集上达到了0.91的准确率,超过了现有的基于GNN的方法。作者在一个基准数据集上展示了方法的有效性,结果显示它是验证蛋白质-蛋白质界面里一个有希望的解决方案。

    01

    一天之内,两大AI预测蛋白结构算法开源,分别登上Nature、Science

    机器之心报道 机器之心编辑部 这是科学激动人心的新一步。我们将直播解读这两研究,详见文后。 使用 氨基酸 序列预测蛋白质形状的 AphaFold2,终于开源了。 众所周知,蛋白质是生命活动的基本组件,它们可以单独存在,也会协同工作。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很难,甚至根本不可能破译。 科学家们一直在梦想通过基因序列简单地预测蛋白质形状——如果能够成功,这将开启一个洞察生命运作机理的新世界。然而近五十年来,人们的进展缓慢。 7 月 15 日,《自然》杂志一篇论文被接

    01

    Bioinformatics|TransformerCPI:通过深度学习以及自我注意机制和标签逆转实验,改善CPI的预测

    这次给大家介绍中国科学院上海药物所郑明月研究员的论文“TransformerCPI: improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments”。化合物-蛋白质相互作用(Compound-Protein Interactions ,CPIs)的识别是药物发现和化学基因组学研究中的关键任务,而没有三维结构的蛋白质在潜在的生物学靶标中占很大一部分,这就要求开发仅使用蛋白质序列信息来预测CPI的方法。为了解决这些问题,作者提出了一个名为TransformerCPI的新型变换神经网络,并引入了更为严格的标签反转实验来测试模型是否学习了真实的交互功能。实验表明TransformerCPI性能优异,可以反卷积以突出蛋白质序列和化合物原子的重要相互作用区域,这可能有助于优化配体结构的化学生物学研究。

    01

    多尺度生成扩散模型预测蛋白-配体复合物结构的动态骨架

    今天给大家介绍的是来自加州理工大学Zhuoran Qiao和NVIDIA团队发表在arxiv上的预印本《DYNAMIC-BACKBONE PROTEIN-LIGAND STRUCTURE PREDICTION WITH MULTISCALE GENERATIVE DIFFUSION MODELS》。作者提出了一种名为NeuralPLexer的扩散模型框架,这一框架能够利用蛋白的骨架模板以及分子图的输入,快速预测蛋白-配体复合物的结构以及它们的波动。另外,本文发现当NeuralPLexer应用于蛋白质折叠因为配体存在而显著改变的系统时,这一框架可以完善类结合态蛋白的结构。这一结果表明,数据驱动的方法可以捕获蛋白质和小分子实体之间的结构协作性,为新药物靶点的计算识别和功能小分子和配体结合蛋白的端到端可微设计展示了方向和前景。

    02

    TCBB|基于多视角图嵌入学习模型识别蛋白质折叠结构

    今天给大家介绍北京理工大学刘滨教授和哈工大(深圳)徐勇教授团队在“IEEE/ACM Transactions on Computational Biology and Bioinformatics“上发表的工作 “Protein Fold Recognition Based on Auto- Weighted Multi-view Graph Embedding Learning Model”。蛋白质折叠识别对于蛋白质结构预测和药物设计都至关重要。目前已经提出一些方法来从蛋白质序列提取有识别度的特征来进行折叠识别,但是如何集成这些特征以提高预测准确性,仍是一个具有挑战性的问题。在本文中,作者提出两种新的模型:AWMG和EMfold。AWMG是一种基于多视图学习框架的模型,其将每个视图视为对应蛋白质数据源的中间表示形式,例如进化信息和检索信息。Emfold是一种集成模型,它结合AWMG和DeepSS这两种互补的方法,其中DeepSS是一种基于模板的算法,集成了SPARKS-X 和 DeepFR 算法。Emfold集成了基于模板算法和机器学习的优势。实验结果表明,AWMG 和 Emfold的性能显著优于其他现有的预测方法。

    01

    TCBB|基于多视角图嵌入学习模型识别蛋白质折叠结构

    今天给大家介绍北京理工大学刘滨教授和哈工大(深圳)徐勇教授团队在“IEEE/ACM Transactions on Computational Biology and Bioinformatics“上发表的工作 “Protein Fold Recognition Based on Auto- Weighted Multi-view Graph Embedding Learning Model”。蛋白质折叠识别对于蛋白质结构预测和药物设计都至关重要。目前已经提出一些方法来从蛋白质序列提取有识别度的特征来进行折叠识别,但是如何集成这些特征以提高预测准确性,仍是一个具有挑战性的问题。在本文中,作者提出两种新的模型:AWMG和EMfold。AWMG是一种基于多视图学习框架的模型,其将每个视图视为对应蛋白质数据源的中间表示形式,例如进化信息和检索信息。Emfold是一种集成模型,它结合AWMG和DeepSS这两种互补的方法,其中DeepSS是一种基于模板的算法,集成了SPARKS-X 和 DeepFR 算法。Emfold集成了基于模板算法和机器学习的优势。实验结果表明,AWMG 和 Emfold的性能显著优于其他现有的预测方法。

    04

    ProGen:蛋白质生成语言模型

    今天给大家介绍的是一项由硅谷Salesforce Research的Ali Madani等人和斯坦福的Possu Huang教授课题组合作的工作,他们在这篇论文中提出的一种蛋白生成语言模型ProGen。作者将蛋白质工程视为无监督序列生成问题,利用大约2.8亿个的蛋白质序列对12亿个参数进行训练,且要求这些蛋白质序列是基于分类和关键字标签的,如分子功能和细胞成分,这为ProGen模型提供了前所未有的进化序列多样性,并允许它进行基于一级序列相似性、二级结构准确率和构像能量的细粒度控制生成。根据NLP指标,ProGen模型表现出良好的性能,且随着氨基酸上下文和条件标签的增多,模型效果会进一步提升。ProGen也适用于未见的蛋白家族,若进行微调,模型效果更好。

    06

    Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测

    今天为大家介绍的是来自Animashree Anandkumar团队的一篇论文。由蛋白和小分子构成的结合复合物是普遍存在的,对生命至关重要。尽管近年来蛋白质结构预测技术有了显著进展,现有算法仍未能系统地预测配体结构及其对蛋白质折叠的调控效应。为了解决这一差异,作者提出了一种名为NeuralPLexer的计算方法,能够仅通过蛋白质序列和配体分子图直接预测蛋白质-配体复合物结构。NeuralPLexer采用深度生成模型,按原子分辨率抽样结合复合物的三维结构及其构象变化。该生成模型基于扩散过程,整合了基本的生物物理限制和多尺度几何深度学习系统,以层次化方式迭代抽样残基级接触图和所有重原子坐标。与所有现有方法相比,NeuralPLexer在蛋白质-配体盲对接(blind protein-ligand docking)和柔性结合位点结构复原(flexible binding-site structure recovery)的基准测试上实现了最先进的性能。此外,由于其在采样配体自由态和配体结合态集合方面的特异性,NeuralPLexer在全局蛋白质结构预测准确性上一致超过AlphaFold2,无论是在具有大构象变化的代表性结构对还是在最近确定的配体结合蛋白上。NeuralPLexer的预测与酶工程和药物发现中重要靶标的结构测定实验相一致,显示出其在加速设计功能性蛋白质和小分子药物的潜力,有望在蛋白组学规模上实现。

    01

    ICLR2021 | 利用数据扩充提高蛋白质序列模型的通用性

    今天给大家介绍投稿在ICLR2021上的一项工作。由于蛋白质序列上的微小改变可能导致其功能上难以预测的变化,所以蛋白质序列往往无法使用类似于计算机视觉或自然语言处理中所使用的随机数据扩充方法。针对以上问题,作者从经验上探索了一组简单的字符串操作,当微调半监督蛋白质模型时,可使用这些操作来增加蛋白质序列数据。在TAPE baseline上的结果表明,对比学习微调方法优于mask token预测微调方法,随着数据扩充量的增加,对比学习方法的性能随之提高。当使用域驱动的转化以及将Transformer的注意力限制在蛋白质序列的随机采样子区域时,跨TAPE任务的结果最一致。在极少数情况下,破坏信息的扩充方式可以改善下游任务表现。

    04

    网络生物学的未来新方向

    今天我们介绍2022年在圣母大学组织的一个网络生物学未来方向研讨会,本文由研讨会参与者合著,总结了研讨会的讨论,预计其将帮助塑造网络生物学未来计算和算法研究的短期和长期愿景。网络生物学是一个跨学科领域,集计算科学和生物科学于一体,对于深入理解细胞功能和疾病至关重要。该领域存在约20年,仍处于初级发展阶段。由于多种因素导致该领域发生了快速变化和出现了新的计算挑战,包括数据复杂性的增加和不同组织水平上多种数据类型的出现以及数据量的增长。这意味着该领域的研究方向也需要发展。因此,汇聚了网络生物学各个计算和算法方面的活跃研究者,以确定这个领域的紧迫挑战。讨论的主题包括:生物网络的推断和比较、多模态数据整合和异构网络、高阶网络分析、网络上的机器学习以及基于网络的个体化医学。

    01

    百度出品,Nature重磅 -- 优化的mRNA设计算法可改善mRNA的稳定性和免疫原性

    尽管mRNA疫苗已用于COVID-19的预防,但仍然面临不稳定和易降解的风险,这是mRNA疫苗存储、配送、效价等面临的重要障碍。先前的研究已表明,增加二级结构可延长mRNA的半衰期,再加上选择优化的密码子,可改善蛋白表达。因此,原则上mRNA的设计算法必须优化二级结构稳定性和密码子的使用。然而,由于同义密码子的存在,使得mRNA设计的工作量非常庞大,例如靶向SARS-CoV-2 Spike蛋白的mRNA就有~10^632种方案,这就带来了难以克服的计算挑战。利用计算语言中类似的概念,我们提供了一种简单且意想不到的解决办法:寻找最佳的mRNA序列类似于在发音相似的备选句子中识别最可能的句子。利用我们的算法(LinearDesign)设计Spike蛋白的mRNA仅需11分钟,并且同时优化稳定性和密码子的使用。在针对COVID-19 和 水痘带状疱疹病毒(varicella-zoster virus)mRNA疫苗,与密码子优化的基准算法相比,LinearDesign大幅度提高了mRNA的半衰期和蛋白的表达,显著增加了抗体的滴度(体内实验中增加了128倍)。该结果揭示了mRNA设计算法还有很大的改进空间,促进了对原本触不可及的高效且稳定的mRNA设计的探索。我们的工作为mRNA疫苗乃至mRNA药物(如单克隆抗体和抗癌药物)的研发带来了“及时雨”(timely tool)。

    02

    基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器

    无监督接触预测 (Unsupervised Contact Prediction) 是在蛋白质结构测定和设计过程中揭示蛋白质物理、结构和功能约束的核心。几十年来,主要的方法是从一组相关序列中推断进化约束。在过去的一年里,蛋白质语言模型已经成为一种潜在的替代方法,但目前性能还没有达到生物信息学中最先进的方法。本文证明了Transformer的注意图 (Attention Map) 能够从无监督语言建模目标中学习蛋白质序列中各个残基之间的接触距离。我们发现,迄今为止已经训练过的最高容量模型已经优于当前最先进的无监督接触预测的工作流程,这表明过去这些繁琐的工作流程可以用端到端模型的单向传递工作流程来代替。

    01
    领券