Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nat. Biotechnol. | 用机器学习预测多肽质谱库

Nat. Biotechnol. | 用机器学习预测多肽质谱库

作者头像
DrugAI
发布于 2022-11-28 09:35:36
发布于 2022-11-28 09:35:36
1.3K0
举报
文章被收录于专栏:DrugAIDrugAI

王建民

本文介绍Max-Planck生物化学研究所计算系统生物化学研究组的Jürgen Cox近期发表在Nature Biotechnology的综述Prediction of peptide mass spectral libraries with machine learning。最近开发的机器学习方法用于识别复杂的质谱数据中的肽,是蛋白质组学的一个重大突破。长期以来的多肽识别方法,如搜索引擎和实验质谱库,正在被深度学习模型所取代,这些模型可以根据多肽的氨基酸序列来预测其碎片质谱。这些新方法,包括递归神经网络和卷积神经网络,使用预测的计算谱库而不是实验谱库,在分析蛋白质组学数据时达到更高的灵敏度或特异性。机器学习正在激发涉及大型搜索空间的应用,如免疫肽组学和蛋白质基因组学。该领域目前的挑战包括预测具有翻译后修饰的多肽和交联的多肽对的质谱。将基于机器学习的质谱预测渗透到搜索引擎中,以及针对不同肽类和测量条件的以质谱为中心的数据独立采集工作流程,将在未来几年继续推动蛋白质组学应用的灵敏度和动态范围。

​​

“鸟枪法”蛋白质组学(shotgun proteomics)是一种识别和量化目标样品中蛋白质的技术。该方法包括两个主要步骤。首先,蛋白质被蛋白酶消化成肽,其次,肽在质谱仪中被片段化,从而产生片段化质谱。由于肽的寡聚结构和主链中键断裂的优势,碎片质谱显示出可用于确定其氨基酸序列和氨基酸共价修饰的规律性。因此,与缺乏重复结构的分子相比,肽谱的解释有些不同。通过了解碎片化的物理方法——例如碰撞诱导解离、高能碰撞解离 (HCD) 或电子转移解离, 可以很容易地从序列中计算出主要肽片段的质量。然而,预测光谱中碎片峰的相对强度,或者在某些情况下它们在光谱中的缺失,这都是由量子化学决定的,这并非易事。传统上在“鸟枪法”蛋白质组学中用于识别肽的肽搜索引擎通常会忽略超出简化规则的强度信息。尽管这些工具已成功应用多年,但强度模式携带的信息可用于提高肽识别过程的灵敏度和特异性。

利用强度信息的一种方法是直接从先前测量的质谱中组装库,并将它们应用于感兴趣的样品的分析。这种方法的优点是对光谱的内容是无假设的。原则上,它可以容纳不属于任何标准碎片离子系列的非标准峰,目前大多数预测方法都没有考虑这些峰。缺点是样品中没有获得谱库质谱的任何新肽都会在分析中丢失。然而,另一种方法也容易在分析中丢失新肽,即获取项目特定的库。生成这样的库为项目增加了大量的测量工作,并且通常仅限于提高灵敏度的好处远远超过肽空间受库内容限制的缺点的应用。

如果可以从氨基酸序列中快速准确地预测碎片质谱中的峰值强度,无论是检测新肽的失败还是生成项目特定库的额外测量工作都将得到克服。这样做的第一次尝试可以追溯到近 20 年前,使用决策树或单个隐藏层神经网络。最近的一项突破中,深度学习方法已经开始以接近实验的精度从氨基酸序列中预测肽片段谱。本综述侧重于准确预测光谱库的机器学习方法。

机器学习和深度学习方法

碎片谱预测是一个监督学习问题,其中谱是从肽序列预测的,模型在肽序列集和元数据作为输入变量和片段强度作为输出变量。有多种回归方法可用,包括基于树的模型,如随机森林和 XGBoost、支持向量回归和神经网络。神经网络因其优越的性能而经常用于频谱预测。

循环神经网络 (RNN)已证明对碎片谱预测非常有用。它们旨在处理序列数据,并且可以应用于可变长度的序列,这使得它们特别适用于肽。双向 RNN 结合了两个 RNN,一个用于序列中的每个方向,以考虑到某个键断裂的频率取决于该键之前和之后的序列上下文。对于某些肽键,它们的断裂倾向主要由局部分子环境决定,而对于其他更远的序列特性是相关的。门控 RNN 已被开发用于处理序列中的多个因果距离尺度。门控 RNN 的两种主要类型,长短期记忆 (LSTM) 和门控循环单元 (GRU) 都已应用于碎片谱预测。此外,传统上用于图像分类和识别任务的卷积神经网络 (CNN) 已应用于光谱。

经过训练的迁移学习模型的一部分在具有不同但相关任务的模型中重复使用,然后通过较少数量的训练实例进行微调,如果模型是从头开始训练的。这种技术可用于针对特定技术或生物环境预测光谱的应用,为此人们可以从更通用的环境中借用训练模型的一部分。例如,在未修饰肽的大型数据集上训练的模型可以部分转移到携带翻译后修饰 (PTM) 的肽模型,该模型随后在较小的数据集上进行训练。最后,有趣的是,诸如形状加性解释 (SHAP) 和积分梯度之类的计算方法可用于将输入特征范围归因于特定实例的预测结果。例如,在图像识别中,这些方法可以指示图像中对某个决定最负责的像素范围。类似地,在光谱中,它们可以提供关于最有助于确定碎片离子强度的序列区域的信息。

光谱数据

碎片质谱可以通过两种方式预测,或者通过关注预定义的离子系列类型,其质量可直接从输入序列计算并且其强度将被预测,或者通过在不参考离子系列注释的情况下预测全光谱。训练预测模型的关键是输入和输出已知的示例数据集。这样的基本事实数据集可以从具有定义序列的合成肽中获得,然后进行质谱分析。这种方法的优点是肽混合物的整个组成是已知的。然而,从这些测量中获得的光谱并不能反映真实样品的组成,因为它们仅涵盖有限的一组肽,合成和分析需要大量的努力。更常见的是利用现有的 DDA 数据集,这些数据集存放在公共原始数据存储库中。这种情况下,可以确保肽被正确识别到可选择的错误发现率 (FDR),因此可以作为准基本事实。可选地,可以应用关于附加质量参数的进一步阈值,例如搜索引擎分数。对于预测全谱的方法,重新分析复杂的蛋白质组学数据以训练模型具有复杂性,即峰可能是由共同片段化的肽引起的,这要么必须通过光谱聚类来减少,要么通过测量阈值来减少。否则,机器学习模型将具有识别由于共同碎片而存在的特征的额外任务。相比之下,在仅预测离子系列强度的方法中,即使在复杂的蛋白质组样本中,预计共同片段化肽的污染影响也很小。

为了确定机器学习模型的性能,需要将可用数据拆分为训练、验证和测试数据集。训练和验证集用于模型构建,而测试集完全排除在此过程之外,但随后用于以无偏见的方式评估模型在预测准确性方面的性能。对于模型构建,训练数据集用于确定模型的参数,验证集用于调整模型的超参数并避免在此过程中过度拟合。为了判断预测的准确性,需要一种光谱相似性度量,它可以量化预测光谱与实验光谱的接近程度。计算测试集元素上所有预测的相似性度量会产生一个直方图,该直方图可用于计算整个预测群体的平均准确度、置信区间或箱线图。在可用数据有限的情况下,可以使用交叉验证来增加准确度直方图的统计数据。

模型的预测性能取决于可用训练实例的数量。如果训练集太小,该方法的全部潜力可能还没有达到,需要获得更多实例才能达到渐近性能的平台期。实践中重要的是模型如何在有限数量的训练实例下执行,因为在给定的技术或生物环境中可用光谱的数量可能会受到限制。对于相同的肽段和相同的元数据参数值,串联质谱 (MS/MS) 光谱的相似技术复制的预测准确性存在实际限制。

离子序列强度预测

大多数流行的离子序列强度预测深度学习模型都使用 RNN,这pDeep、DeepMass:Prism、Prosit 和 Guan 等人中已经实现,但也使用了 CNN。Prosit 基于 GRU,而其他基于 RNN 的模型使用 LSTM 层。例如,DeepMass:Prism 的架构使用编码器-解码器架构,该架构是在机器翻译的背景下开发的。编码器部分将可变长度的肽序列作为输入,并将其转换为固定长度的表示,这是通过三个 LSTM 层实现的。与元数据参数的值一起,由多层感知器组成的解码器生成离子序列强度的“转换”序列。Prosit 也遵循编码器-解码器架构,但其结构略有不同,因为它将归一化的碰撞能量作为额外的元数据参数输入。

传统的机器学习也已应用于离子序列强度预测。这些方法可以细分为固定长度和基于窗口的方法。前者中,在 MS2PIP 中实现,为每个可能的肽长度训练一个单独的模型。因此,不同长度的肽没有协同作用,就像 RNN 的情况一样。由于可变长度输入没有复杂性,原则上任何传统的机器学习算法都可以使用随机森林作为首选。对于基于窗口的方法,例如 wiNNer,由于其神经网络包含多个隐藏层,因此被归类为深度学习,不同长度的肽段有助于同一模型。该模型预测了由一次断裂一个肽键形成的离子相对于光谱中最高峰的峰高。特征空间是固定长度的,可以认为是表示当前考虑的键周围的序列窗口以及一些附加特征。特征包括以所考虑的肽键为中心的序列窗口中的 one-hot 编码氨基酸、肽的长度、到 C 和 N 末端的距离(残基数)、末端的 one-hot 编码氨基酸加上值元数据参数也被馈送到基于 RNN 的模型中。通过沿序列滑动窗口,将从一个肽创建多个基于窗口的训练数据实例。其他几种方法也属于这一类,因为它们的预测一次只关注一个肽键,并且特征部分是从具有小窗口大小的键周围的氨基酸中招募的。尽管与基于 RNN 的预测相比,基于窗口的预测的预测精度通常较低,但它可以接近,并且具有减少训练实例数量和降低计算复杂度的潜在优点。

全光谱预测

开发了一种基于 CNN 的架构,用于预测包括非骨架离子在内的全光谱。该方法不依赖于峰注释,而是使用最高 2,000 Da 的分箱 m/z 范围,分箱宽度为 0.1,从而生成 20,000 维向量作为预测强度的目标。输入序列的 one-hot 编码用于预测双电荷和三电荷未修改的 HCD 光谱,许多训练实例可用。大约需要 150 万个光谱才能达到预测精度的饱和。由于可用于训练的电荷一和四个 HCD 光谱要少得多,因此将多任务学习应用于预测不太频繁的电荷状态。一个辅助预测任务,即前体电荷预测,作为一种聚焦方法被集成到模型中,以避免灾难性遗忘。通过包含碎片类型的伪预测器,通过与 HCD 模型类似的集成来实现电子转移解离谱的预测。全光谱预测的未来工作可能包括扩展到其他碎片化方法。此外,特征归因方法的应用可能会揭示非骨架离子产生背后的机制。

修饰和交联的多肽

PTMs是对蛋白质的共价修饰,可以发生在氨基酸侧链或末端。它们的存在改变了离子序列成员的质量,也可以对峰强度产生深远的影响。此外,由于特定于修改的中性损失,它们可能会产生额外的碎片。迁移学习用于修改 pDeep2以预测包含修改的光谱。该模型首先在来自未修饰肽的大型光谱数据集上进行了预训练。完整模型由一个输入层、两个双向 LSTM 层和一个输出层组成,输出层增加了代表由 PTMs中性损失引起的 b 和 y 离子的节点。迁移学习步骤中,只有第一个 LSTM 层和输出层被微调,而模型的其余部分被冻结在其预训练状态。结果发现,特别是当只有少量携带 PTMs 的光谱可用时,迁移学习模式的性能优于从头训练的模型的性能。一个模型最近被用于修饰肽的保留时间预测。将来可能会改进表示,因为它不能充分表示复杂的 PTMs,例如糖基化,不能区分异构体,并且固有地在修饰的原子组成之间进行插值,这可能不是表示化学性质的最佳选择。DeepPhospho 是另一种深度学习模型,它通过使用转换器网络预测肽碎片模式,将光谱库预测集成到 DIA 工作流程中。

交联质谱法中产生了另一类需要专门方法进行光谱预测的肽。此处产生了成对的肽,它们通过连接两个氨基酸的接头共价连接,两个氨基酸中的一个来自两个肽中的每一个。每个肽的片段化模式都受到其他肽存在的影响,这使得它们的预测比线性肽更难。一些片段包括接头和相应的其他肽,这使它们平均更重和更高的电荷。与线性肽相比,交联肽的可用数据较少,并且由于许多可用的交联试剂,它们显示出高度的多样性。交联剂可以通过质谱法裂解或不可裂解,从而产生两种不同类型的碎片光谱。pDeepXL 是一个深度神经网络,它在可切割和不可切割交联数据上分别进行训练,从而产生两个基于迁移学习的预测模型。深度学习架构的未来迭代可能与交联肽的保留时间预测器一起在集成到其分数中时可能会提高交联搜索引擎的敏感性。

DDA 应用

准确片段质谱强度预测的一个重要应用是其用于改进实验光谱与候选肽段的匹配。在 DDA 中,肽数据库搜索引擎为每个给定的碎片谱做出决定,通常在几个候选中构成最佳肽谱匹配 (PSM)。PSM 分配正确性的整体改进导致更好的灵敏度、特异性或两者兼而有之。强度整合的早期尝试表明,这在原则上是可行的。最近表明,通过使用强度信息,可以在标准蛋白质组搜索中针对来自智人UniProt蛋白质序列的物种特异性序列数据库进行标准蛋白质组搜索,从而进一步提高分配的正确性,该数据库包含所有胰蛋白酶肽,最多有几个缺失的切割。一种方法直接将强度信息集成到Andromeda搜索引擎分数中,另一种方法使用渗透器将光谱比较特征与 MS-GF+ 搜索引擎分数集成。灵敏度的提高取决于 q 值,并且在 q 值较小时更高。在 1% 的标准 FDR 下,深度学习预测的改进约为 4%。尽管对标准蛋白质组的鉴定增加只是适度的,但预计在更大的搜索空间中,强度预测的好处更高,因为在某个公差窗口内,每个前体质量平均存在更多潜在的 PSM,其中正确的 PSM 需要被发现。具有较大肽搜索空间的应用包括免疫肽组学、蛋白质组学和元蛋白质组学。

免疫肽组学专注于与人类白细胞抗原 (HLA) 结合的肽,这些肽由细胞内蛋白质的蛋白酶体降解产生,然后重新定位到细胞表面。定义呈现在癌细胞上的 HLA 肽组是生物医学研究的一个深入研究领域,因为这些肽为治疗干预提供了靶标。与必须由特定蛋白酶消化才能进行鸟枪法蛋白质组学的蛋白质相比,HLA 肽可以通过质谱直接测量,但由于非特异性切割而带来了搜索空间增加的挑战。此外,管理片段化的规则与胰蛋白酶肽的规则不同。因此,预测 HLA 肽片段化的模型也需要在非胰蛋白酶肽上进行广泛的训练。基于深度学习的强度预测用于改进免疫肽组学中的肽鉴定。

蛋白质组学是借助基因组或转录组序列对蛋白质组的研究,允许识别不属于参考蛋白质组序列的肽。这种扩展序列空间的计算机翻译导致肽搜索空间膨胀,在确定光谱的最佳 PSM 时必须考虑这一点。搜索空间膨胀的程度取决于科学问题,范围可以从包含转录本的非翻译区域到整个基因组的六帧翻译。蛋白质组学还受益于通过在基于渗滤器的方法中对 PSM 重新评分来整合预测的光谱强度。蛋白质组学搜索空间是通过核糖体分析和基于使用纳米孔的 RNA 测序 (RNA-seq) 的三帧翻译数据库生成的。后者导致序列数据库大小增长超过 50 倍,相关的氨基酸含量增加了 20 倍。

尽管应用于标准蛋白质组、蛋白质基因组学和免疫肽组的方法不同,不能直接比较,但结果表明,到目前为止,免疫肽组学的改进是最大的。深度学习在多肽识别问题上的另一个有前途的应用是DeepMatch,它规避了光谱的预测,直接预测PSM分数。尽管该方法在识别率方面显示出有希望的结果,但其计算要求太高,无法将其整合到常规的肽搜索引擎中。

DIA 应用

DIA 数据分析工作流程可细分为以光谱为中心和以肽为中心的方法。以光谱为中心的软件工具从 DIA 数据的前体和碎片特征中组装伪 DDA 光谱,然后将其提交给传统的搜索引擎。在以肽为中心的方法中,专用光谱库用于查询 DIA 样品中由库光谱表示的肽。因此,以肽为中心的方法可以直接受益于文库预测。已经开发了几个以肽为中心的软件框架,原则上它们都可以与预测的库一起操作。对于没有额外富集的单一物种的标准蛋白质组学样品,例如磷酸化,发现使用无偏的完整蛋白质组计算机预测库进行胰蛋白酶消化是可行和有益的。此外,蛋白质鉴定的错误率处于良好的统计控制之下,即使在使用如此大的计算机库时也是如此。

结论

目前质谱库预测工具的预测准确性正在推进DDA和DIA数据分析。在DDA中对PSMs的重新评分正在改善其敏感性-特异性特征。DIA数据分析现在可以在光谱库的无偏全蛋白质组预测的基础上常规进行,消除了测量项目特定库的需要。尽管取得了这些进展,蛋白质组学仍然面临着灵敏度方面的挑战。尽管细胞蛋白质组可以常规地进行足够深度的量化,但大多数蛋白质的序列覆盖还远未完成,并且落后于RNA-seq的转录组分析。这意味着,由于缺乏敏感性,在鸟枪法蛋白质组学中往往不能解决因替代剪接而存在的蛋白质形态。同样,单细胞蛋白质组学和血浆蛋白质组学将大大受益于灵敏度和动态测量范围的改善。通过将强度信息更好地整合到现有的搜索引擎中,碎片光谱的预测将有助于解决这些挑战。为此,也为了适应PTMs,强度预测模型必须具有计算效率。此外,需要考虑的肽类的多样性,使得一个什么都知道的大型深度学习模型似乎不太可能成为首选方式。相反,许多专门的模型,每一个都可以通过适度的努力和有限的训练数据进行训练,应该能更好地满足需求。

参考资料

Cox, J. Prediction of peptide mass spectral libraries with machine learning. Nat Biotechnol (2022).

https://doi.org/10.1038/s41587-022-01424-w

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
BIB | pNovo3:使用排序学习框架进行精确的多态从头测序
今天给大家介绍的是中国科学院计算机研究所发表在Briefings in Bioinformatics上的一篇文章“pNovo 3: precise de novo peptide sequencing using a learning-to-rank ramework”。
智能生信
2021/06/24
2K0
BIB | pNovo3:使用排序学习框架进行精确的多态从头测序
Nat. Mach. Intell. | 对比学习赋能质谱搜索!DeepSearch能零样本分析翻译后修饰
今天为大家介绍的是来自加拿大滑铁卢大学和郑州华中人工智能研究院的一篇论文。在质谱蛋白质组学中,肽段的鉴定对于理解蛋白质功能和动态至关重要。传统的数据库搜索方法虽然应用广泛,但依赖启发式评分函数,需要引入统计估计才能获得更高的鉴定率。作者推出了DeepSearch,这是一种基于深度学习的端到端串联质谱数据库搜索方法。DeepSearch利用改进的基于transformer的编码器-解码器架构,在对比学习框架下运作。与依赖离子对离子匹配的传统方法不同,DeepSearch采用数据驱动方法对肽段-谱图匹配进行评分。DeepSearch还能以零样本方式分析可变翻译后修饰。作者表明,DeepSearch的评分方案表现出较少的偏差,不需要任何统计估计。作者通过各种数据集验证了DeepSearch的准确性和稳健性,包括来自不同蛋白质组成物种的数据集和富集修饰的数据集。DeepSearch为串联质谱中的数据库搜索方法开辟了新途径。
DrugAI
2025/02/03
1970
Nat. Mach. Intell. | 对比学习赋能质谱搜索!DeepSearch能零样本分析翻译后修饰
Nat. Commun. | 推理速度提升89倍!肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用
今天为大家介绍的是来自上海人工智能实验室,北京生命组学研究所,复旦大学团队合作的一篇论文。串联质谱(MS/MS)在蛋白质组学中的肽段测序是至关重要的。与传统的数据库搜索相比,深度学习在从头肽段测序方面表现出色,即使是对于在现有数据库中缺失的肽段也能很好地处理。目前的深度学习模型通常依赖自回归生成,但这种方法存在错误累积和推理速度慢的问题。在这项研究中,作者提出了π-PrimeNovo,这是一个基于非自回归transformer的肽段测序模型。通过精心设计的架构和用于精确质量控制的CUDA增强解码模块,π-PrimeNovo在准确性方面取得了显著提升,且推理速度比最先进的方法快至89倍,这使其特别适合宏蛋白质组学等大规模应用。此外,该模型在磷酸化肽的挖掘和检测低丰度翻译后修饰(PTMs)方面表现出色,这标志着肽段测序技术取得了重大进展,在生物学研究中具有广泛的应用潜力。
DrugAI
2025/02/03
1780
Nat. Commun. | 推理速度提升89倍!肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用
代谢组数据分析(一):从质谱样本制备到MaxQuant搜库
液相色谱-质谱串联(LC-MS/MS)是一种高效且灵敏的分析技术,广泛应用于多个领域中的化合物检测、鉴定和定量。在残留化合物检测方面,LC-MS/MS能够精确识别并测定环境样品、农产品和工业产品中残留的微量化学物质,如农药、兽药和化学品等。在有机小分子检测领域,该技术凭借其高分辨率和强选择性的特性,能够有效分离和检测复杂样品中的有机小分子,为化学研究、药物开发和环境监测等领域提供有力支持。
生信学习者
2024/10/22
6910
代谢组数据分析(一):从质谱样本制备到MaxQuant搜库
代谢组数据分析一:从质谱样本制备到MaxQuant搜库
液相色谱-质谱串联(LC-MS/MS)是一种高效且灵敏的分析技术,广泛应用于多个领域中的化合物检测、鉴定和定量。在残留化合物检测方面,LC-MS/MS能够精确识别并测定环境样品、农产品和工业产品中残留的微量化学物质,如农药、兽药和化学品等。在有机小分子检测领域,该技术凭借其高分辨率和强选择性的特性,能够有效分离和检测复杂样品中的有机小分子,为化学研究、药物开发和环境监测等领域提供有力支持。
生信学习者
2024/06/13
5280
代谢组数据分析一:从质谱样本制备到MaxQuant搜库
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
◉ 蛋白质从包括单细胞、组织和体液在内的样品中提取,并使用特定的蛋白水解酶消化成肽。◉ 在多重分析时,这些肽通过化学方法用稳定同位素标记的标签进行标记。◉ 样本制备过程的自动化提高了蛋白质组学分析的稳定性和通量。◉ 然后,标记或非标记的肽混合物经过先进的LC分离,包括微柱阵列柱(µPAC)和预形成梯度的LC。◉ 分离后的肽在不同的保留时间(RT)从LC系统中洗脱出来,并进行DDA或DIA分析用于发现应用,或者针对非发现应用如临床检测进行靶向MS分析。◉ 所描述的质谱硬件包括最新的混合仪器,如timsTOF和Astral仪器,它们结合了被困离子迁移率分离或Orbitrap与飞行时间质量分析器,以促进增强的蛋白质鉴定和定量。◉ 该工作流程应用于探索蛋白质相互作用网络并实现全面的生物体蛋白质组研究,将分子数据与生物学功能和疾病机制联系起来。
生信菜鸟团
2025/03/06
5120
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
Nat. Mach. Intell. | InstaNovo助力蛋白质组学:用扩散模型高效破解肽段序列密码
基于质谱的蛋白质组学旨在识别生成串联质谱图的肽段。传统方法依赖蛋白数据库,但在某些情境下受限或无法应用。de novo肽段测序无需先验信息,具有广泛的生物学应用价值,但因准确性不足而难以推广。研究人员在此提出InstaNovo,一种将碎片离子峰直接转译为肽段序列的Transformer模型,表现优于现有技术。进一步,研究人员开发了InstaNovo+扩散模型,通过迭代优化提升预测性能。该方法在多个数据集中实现更高的治疗性测序覆盖率,发现新型肽段,并识别未报道的生物体,拓展了蛋白质组学的搜索范围与检出能力,适用于直接蛋白测序、免疫肽组学及“暗蛋白组”等多个领域。
DrugAI
2025/04/15
1020
Nat. Mach. Intell. | InstaNovo助力蛋白质组学:用扩散模型高效破解肽段序列密码
生化小课 | 质谱法提供分子质量、氨基酸序列和整个蛋白质组的信息
质谱法可以高度准确地测量蛋白质的分子质量,轻松区分单个质子差异。然而,这项技术可以做得更多。可以在几秒钟内获得蛋白质样品中多个短多肽片段(每个片段有 20 到 30 个氨基酸残基)的序列。可以鉴定出未知的纯化蛋白质,并准确测定其质量。当与强大的肽分离方案相结合时,质谱可以在一小时内记录完整的细胞蛋白质组——定义为一个细胞中的全部蛋白质,包括对其相对丰度的估计。
尐尐呅
2023/09/04
5330
生化小课 | 质谱法提供分子质量、氨基酸序列和整个蛋白质组的信息
上科大研究登Nature子刊,深度学习更快、更深入地进行磷酸化蛋白质组分析
编辑/凯霞 蛋白质磷酸化是一种广泛的翻译后修饰(PTM),是生物体内一种普通的调节方式,在细胞信号转导的过程中起重要作用。基于数据依赖采集(DDA)和数据非依赖采集(DIA)是基于高分辨质谱的非靶向代谢组学中的常见数据采集模式。 然而,当前的 DIA 磷酸蛋白质组学工作流程面临着一个重大限制,即需要在数据处理之前构建高质量的光谱库。 近日,上海科技大学的科研团队开发了一个名为 DeepPhospho 的深度学习框架,以实现对磷酸肽的 LC-MS/MS 数据的高度准确预测。通过设计和评估 DeepPhosph
机器之心
2023/03/29
5530
上科大研究登Nature子刊,深度学习更快、更深入地进行磷酸化蛋白质组分析
蛋白质组学研究概述
作者简介:中科院遗传与发育生物学研究所中丹学院博士生张泽宇,外号 “大神”,口号 “Now you see me”。 这是其刚入学时做的一个报告。 本篇介绍下蛋白质组学,如果覆盖度深的话,应该是新时代
生信宝典
2018/06/26
1.5K0
Nat. Biotechnol. | 利用语言模型设计蛋白质
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
DrugAI
2024/03/26
2570
Nat. Biotechnol. | 利用语言模型设计蛋白质
蛋白质组学第5期搜库软件之 MaxQuant 再介绍
第三期理论教程结尾时讲到蛋白质三大元素整合以及搜库过程是理论谱图和实际谱图的匹配过程
生信技能树
2019/08/06
20.5K0
蛋白质组学第5期搜库软件之 MaxQuant 再介绍
Nat. Mach. Intell. | 高分辨率设备下的多肽从头测序
今天给大家介绍的是Rui Qiao等人在Nature Machine Intelligence上发表的文章“Computationally instrument-resolution independent de novo peptide sequencing for high-resolution devices”。从头测序是从质谱中寻找新肽的关键技术。测序结果的整体质量取决于从头肽测序算法以及质谱的质量。在过去的十年里,质谱仪的分辨率和准确度提高了几个数量级,产生了更高分辨率的质谱。如何有效地利用这些高分辨率数据而不大幅增加计算的复杂性仍然是从头肽测序工具的一个挑战。在这篇论文中作者提出了PointNovo模型,这是一个基于神经网络的从头肽测序模型,可以稳健地处理任何分辨率的质谱数据同时保持计算复杂度不变。最终的实验结果表明,PointNovo能利用最新质谱仪的超高分辨率,优于现有的从头肽测序工具。
智能生信
2021/05/17
6820
Nat. Mach. Intell. | 高分辨率设备下的多肽从头测序
临床蛋白质组九步走
基于文章主图,我们将临床蛋白质组的处理步骤分为的实验处理,质谱分析和生信分析共9步,分别进行简单介绍:
生信技能树
2022/07/26
2K0
临床蛋白质组九步走
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
今天为大家介绍的是来自Po-Ssu Huang团队的一篇论文。蛋白质中的信息流是从序列到结构再到功能,每一步都是由前一步驱动的。蛋白质设计的基础是反转这一过程:指定一个期望的功能,设计执行这个功能的结构,并找到一个能够折叠成这个结构的序列。这个“中心法则”几乎是所有全新蛋白质设计工作的基础。我们完成这些任务的能力依赖于我们对蛋白质折叠和功能的理解,以及我们将这种理解捕捉到计算方法中的能力。近年来,深度学习衍生的方法在高效和准确的结构建模和成功设计的丰富化方面使我们能够超越蛋白质结构的设计,向功能蛋白质的设计前进。
DrugAI
2024/04/12
1230
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
Nat Biotechnol|通过机器学习发现抗生素
2022年5月6日,Nat Biotechnol发表文章,评述了3月份发表在该期刊上的来自中国科学院微生物研究所王军和陈义华等人的研究工作。
智药邦
2022/06/08
3880
Nat Biotechnol|通过机器学习发现抗生素
ACS Nano | 基于计算机的抗菌肽发现框架
抗生素耐药性,是人类社会中最严重的医疗问题之一,目前每年在欧洲造成超过2.5万人死亡,在美国造成3.5万人死亡。几十年来,具有抗菌素耐药性的微生物数量一直在增加。这些微生物引起的感染缺乏有效的治疗方案。在过去几十年里,人们发现抗生素缺乏,严重影响了经济和人类的福祉。因此,当前重要的是,人类必须开发出能够对抗耐多药微生物,并减缓抗生素耐药性的进化和传播的抗菌素。
DrugScience
2021/03/18
1.2K0
ACS Nano | 基于计算机的抗菌肽发现框架
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
开发新药既昂贵又耗时。准确预测药物和靶标之间的相互作用可能会改变药物的发现方式。基于机器学习的蛋白质-配体相互作用预测已经显示出巨大的潜力。本文重点对基于序列和基于结构的蛋白质-配体相互作用机器学习方法进行了总结。因此,本文首先概述了该领域应用的数据集,以及用于表示蛋白质和配体的各种方法。然后,利用基于序列和基于结构的分类标准对经典机器学习模型和深度学习模型进行分类和总结,用于蛋白质-配体相互作用的研究。此外,还提出了这些模型的评价方法和可解释性。此外,深入探讨了蛋白质-配体相互作用模型在药物研究中的各种应用。最后,讨论了该领域目前面临的挑战和未来的发展方向。
DrugAI
2024/03/07
1.1K0
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
蛋白组泛癌 | Cell | 精准蛋白质基因组学揭示种系变异的泛癌影响
◉ 图1。CPTAC数据集概述和精确肽组学工作流程(A)CPTAC队列包含来自10种不同癌症类型的1,064名具有不同遗传祖先的个体以及可用的数据类型。顶部分布的颜色代表遗传祖先:非洲(AFR);混血美洲(AMR);东亚(EAS);欧洲(EUR);南亚(SAS)。◉ (B)我们的精确肽组学工作流程,表示在LC-MS/MS数据集上实施Spectrum Mill工作流程以产生肽谱匹配(PSMs),这些匹配检测到蛋白质组、磷酸化蛋白质组和乙酰化蛋白质组数据集中18,599个体细胞变异。◉ (C)基于精确肽数据,概述了癌症类型中受体细胞变异影响的磷酸化(上方)和乙酰化(下方)位点。变异发生在位点附近或直接位于位点,78%的磷酸化位点和84%的乙酰化位点上的体细胞变异位于PTM位点10个或更少的氨基酸以内。另请参见图S1。
生信菜鸟团
2025/05/09
830
蛋白组泛癌 | Cell | 精准蛋白质基因组学揭示种系变异的泛癌影响
Nat. Biotechnol. | 利用蛋白语言模型的信号肽类型预测模型 SignalP 6.0
本文给大家介绍的是丹麦技术大学健康技术系生物信息部的Henrik Nielsen 课题组发表在 nature biotechnology 上的文章 《SignalP 6.0 predicts all five types of signal peptides using protein language models》。在这篇文章中,作者提出了一个机器学习模型 SignalP 6.0,它可以预测全部 5 种信号肽类型且适用于宏基因组数据。
DrugAI
2022/03/25
1.3K0
Nat. Biotechnol. | 利用蛋白语言模型的信号肽类型预测模型 SignalP 6.0
推荐阅读
BIB | pNovo3:使用排序学习框架进行精确的多态从头测序
2K0
Nat. Mach. Intell. | 对比学习赋能质谱搜索!DeepSearch能零样本分析翻译后修饰
1970
Nat. Commun. | 推理速度提升89倍!肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用
1780
代谢组数据分析(一):从质谱样本制备到MaxQuant搜库
6910
代谢组数据分析一:从质谱样本制备到MaxQuant搜库
5280
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
5120
Nat. Mach. Intell. | InstaNovo助力蛋白质组学:用扩散模型高效破解肽段序列密码
1020
生化小课 | 质谱法提供分子质量、氨基酸序列和整个蛋白质组的信息
5330
上科大研究登Nature子刊,深度学习更快、更深入地进行磷酸化蛋白质组分析
5530
蛋白质组学研究概述
1.5K0
Nat. Biotechnol. | 利用语言模型设计蛋白质
2570
蛋白质组学第5期搜库软件之 MaxQuant 再介绍
20.5K0
Nat. Mach. Intell. | 高分辨率设备下的多肽从头测序
6820
临床蛋白质组九步走
2K0
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
1230
Nat Biotechnol|通过机器学习发现抗生素
3880
ACS Nano | 基于计算机的抗菌肽发现框架
1.2K0
J. Chem. Inf. Model. | 基于序列和基于结构的蛋白质-配体相互作用机器学习方法
1.1K0
蛋白组泛癌 | Cell | 精准蛋白质基因组学揭示种系变异的泛癌影响
830
Nat. Biotechnol. | 利用蛋白语言模型的信号肽类型预测模型 SignalP 6.0
1.3K0
相关推荐
BIB | pNovo3:使用排序学习框架进行精确的多态从头测序
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档