首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从NC文章学习蛋白质组学数据处理!

   这篇NC文章详细比较了不同的蛋白质组学下机数据处理的WorkFlow,比较了其中每个环节可能带来的影响。对于要分析蛋白质组下机数据有很好的参考意义。比如说,缺失值要怎么处理,使用什么样的策略插补数据更准确?

下面,来学习下这篇文章。

在蛋白质组学工作流程中,差异表达蛋白的鉴定通常包括五个关键步骤:

原始数据定量、

表达矩阵构建、

矩阵归一化、

缺失值插补(MVI)

差异表达分析。

研究者整合了12个无标记DDA数据集、5个TMT数据集和7个无标记DIA数据集,构成目前最全面的基准数据集集合。这些数据集用于测试和优化DEA工作流程。

随后,构建了不同的WorkFlow:

1. DDA数据定量

FragPipe v20.0

:采用默认定量参数,使用MSFragger-3.825进行数据库搜索,并通过Philosopher v5.0.0添加污染物和反向序列。定量平台包括Top0(所有前体)、Top3(仅考虑前3个最强的前体)和MaxLFQ(最少2个离子的计算)。

MaxQuant v2.1.0.0

:作为替代定量平台,使用Andromeda进行数据库搜索,Top0、Top3和MaxLFQ定量,采用与FragPipe相同的参考库。

2. DIA数据定量

DIA-NN v1.8.1

使用默认参数进行定量,数据库通过预测库进行匹配,提取Top1(最强的前体)、Top3和MaxLFQ强度。

Spectronaut 18

作为替代平台,使用与DIA-NN相同的数据库和库预测,定量方法与DIA-NN类似。

3. TMT数据定量

FragPipe v20.0

MSBooster、Percolator和ProteinProphet用于肽段鉴定和蛋白质推断,定量使用TMT-Integrator和Philosopher。提取TMT-Integrator的丰度(abd)和比率(ratio),以及Philosopher的强度。

MaxQuant v2.4.4.0:

使用Reporter ion MS2的10plex TMT进行定量,提取报告离子的强度。

4. 表达矩阵类型、归一化、插补和DEA统计工具

表达矩阵类型:

对于LFQ-DDA数据(FragPipe和Maxquant),有光谱计数、Top0、Top3、MaxLFQ和directLFQ等类型。

对于DIA数据(DIA-NN和Spectronaut),有Top1、Top3、MaxLFQ和directLFQ。

对于TMT数据(FragPipe和Maxquant),有TMT-Integrator的丰度、比率、Philosopher强度等。

归一化和插补:

使用常见的归一化方法(如对数归一化、标准化)和插补方法(如基于KNN或其他插补算法)来处理缺失数据。

不同工作流之间存在显著的性能差距

表达矩阵类型、归一化方法、插补方法、差异分析方法对分析性能的影响

表达矩阵类型:dlfq在label-free设置中表现最佳,LFQ次之,TMT设置下TMT-Integrator abundance优于其他类型。

标准化方法:无标准化选项表现良好,尤其在使用内置标准化的定量方法(如dlfq、LFQ)时。需要标准化时,推荐 “lossf” 和 “center.median”。

缺失值插补(MVI)算法:MinProb表现最好,尤其在多个设置中,missForest在FG_DDA和MQ_DDA表现好,但时间消耗大。

DEA统计工具:limma、ROTS、DEP和proDA排名靠前,但proDA运行较慢。plgem在基于计数的DEA中表现最佳。

集成推断的方法整合不同高性能DEA流程可以有效提升差异表达蛋白的检测性能

最后,总结不同的WorkFlow推荐使用的数据处理方法:

1. 针对特定定量设置的推荐工作流程:

LFQ-DDA数据(FG_DDA):

使用FragPipe定量,推荐结合以下步骤:

数据处理:

使用directLFQ强度

数据归一化:

不做额外归一化

缺失值插补(MVI):

SeqKNN

差异表达分析(DEA):

DEqMS或ROTS(若关注运行时间,可用limma替代)

LFQ-DDA数据(MQ_DDA):

使用MaxQuant定量,推荐工作流程类似FG_DDA,唯一差异为使用Impseq进行MVI。

LFQ-DIA数据(DIANN_DIA):

使用DIA-NN定量,推荐结合以下步骤:

MVI:

MinDet

DEA:

limma或ROTS

LFQ-DIA数据(spt_DIA):

使用Spectronaut定量,推荐使用Impseq作为MVI方法,ROTS作为DEA方法。

TMT数据(FG_TMT):

使用FragPipe定量,推荐结合SeqKNN和limma,数据处理采用TMT-Integrator丰度值。

TMT数据(MQ_TMT):

使用MaxQuant定量,推荐结合bpca(MVI方法)和proDA(或limma)。

无平台或定量信息的表达矩阵:

推荐使用一系列灵活的选项,如SeqKNN、MinDet或Impseq作为MVI方法,limma或ROTS作为DEA方法。

2. 实验设计建议:

推荐LFQ-DIA和TMT作为蛋白质组学实验设计的优选方法。DIA和TMT具有更高的蛋白质覆盖率和更低的缺失率。

若需直接选择DIA或TMT,需根据实验需求(如复用水平、动态范围、预算)做决策。(PS:毕竟DIA便宜,有钱可以做TMT)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OlOe70_zEl570rMHJBSwzzSA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券