这篇NC文章详细比较了不同的蛋白质组学下机数据处理的WorkFlow,比较了其中每个环节可能带来的影响。对于要分析蛋白质组下机数据有很好的参考意义。比如说,缺失值要怎么处理,使用什么样的策略插补数据更准确?
下面,来学习下这篇文章。
在蛋白质组学工作流程中,差异表达蛋白的鉴定通常包括五个关键步骤:
原始数据定量、
表达矩阵构建、
矩阵归一化、
缺失值插补(MVI)
差异表达分析。
研究者整合了12个无标记DDA数据集、5个TMT数据集和7个无标记DIA数据集,构成目前最全面的基准数据集集合。这些数据集用于测试和优化DEA工作流程。
随后,构建了不同的WorkFlow:
1. DDA数据定量
FragPipe v20.0
:采用默认定量参数,使用MSFragger-3.825进行数据库搜索,并通过Philosopher v5.0.0添加污染物和反向序列。定量平台包括Top0(所有前体)、Top3(仅考虑前3个最强的前体)和MaxLFQ(最少2个离子的计算)。
MaxQuant v2.1.0.0
:作为替代定量平台,使用Andromeda进行数据库搜索,Top0、Top3和MaxLFQ定量,采用与FragPipe相同的参考库。
2. DIA数据定量
DIA-NN v1.8.1
使用默认参数进行定量,数据库通过预测库进行匹配,提取Top1(最强的前体)、Top3和MaxLFQ强度。
Spectronaut 18
作为替代平台,使用与DIA-NN相同的数据库和库预测,定量方法与DIA-NN类似。
3. TMT数据定量
FragPipe v20.0
MSBooster、Percolator和ProteinProphet用于肽段鉴定和蛋白质推断,定量使用TMT-Integrator和Philosopher。提取TMT-Integrator的丰度(abd)和比率(ratio),以及Philosopher的强度。
MaxQuant v2.4.4.0:
使用Reporter ion MS2的10plex TMT进行定量,提取报告离子的强度。
4. 表达矩阵类型、归一化、插补和DEA统计工具
表达矩阵类型:
对于LFQ-DDA数据(FragPipe和Maxquant),有光谱计数、Top0、Top3、MaxLFQ和directLFQ等类型。
对于DIA数据(DIA-NN和Spectronaut),有Top1、Top3、MaxLFQ和directLFQ。
对于TMT数据(FragPipe和Maxquant),有TMT-Integrator的丰度、比率、Philosopher强度等。
归一化和插补:
使用常见的归一化方法(如对数归一化、标准化)和插补方法(如基于KNN或其他插补算法)来处理缺失数据。
不同工作流之间存在显著的性能差距
表达矩阵类型、归一化方法、插补方法、差异分析方法对分析性能的影响
表达矩阵类型:dlfq在label-free设置中表现最佳,LFQ次之,TMT设置下TMT-Integrator abundance优于其他类型。
标准化方法:无标准化选项表现良好,尤其在使用内置标准化的定量方法(如dlfq、LFQ)时。需要标准化时,推荐 “lossf” 和 “center.median”。
缺失值插补(MVI)算法:MinProb表现最好,尤其在多个设置中,missForest在FG_DDA和MQ_DDA表现好,但时间消耗大。
DEA统计工具:limma、ROTS、DEP和proDA排名靠前,但proDA运行较慢。plgem在基于计数的DEA中表现最佳。
集成推断的方法整合不同高性能DEA流程可以有效提升差异表达蛋白的检测性能
最后,总结不同的WorkFlow推荐使用的数据处理方法:
1. 针对特定定量设置的推荐工作流程:
LFQ-DDA数据(FG_DDA):
使用FragPipe定量,推荐结合以下步骤:
数据处理:
使用directLFQ强度
数据归一化:
不做额外归一化
缺失值插补(MVI):
SeqKNN
差异表达分析(DEA):
DEqMS或ROTS(若关注运行时间,可用limma替代)
LFQ-DDA数据(MQ_DDA):
使用MaxQuant定量,推荐工作流程类似FG_DDA,唯一差异为使用Impseq进行MVI。
LFQ-DIA数据(DIANN_DIA):
使用DIA-NN定量,推荐结合以下步骤:
MVI:
MinDet
DEA:
limma或ROTS
LFQ-DIA数据(spt_DIA):
使用Spectronaut定量,推荐使用Impseq作为MVI方法,ROTS作为DEA方法。
TMT数据(FG_TMT):
使用FragPipe定量,推荐结合SeqKNN和limma,数据处理采用TMT-Integrator丰度值。
TMT数据(MQ_TMT):
使用MaxQuant定量,推荐结合bpca(MVI方法)和proDA(或limma)。
无平台或定量信息的表达矩阵:
推荐使用一系列灵活的选项,如SeqKNN、MinDet或Impseq作为MVI方法,limma或ROTS作为DEA方法。
2. 实验设计建议:
推荐LFQ-DIA和TMT作为蛋白质组学实验设计的优选方法。DIA和TMT具有更高的蛋白质覆盖率和更低的缺失率。
若需直接选择DIA或TMT,需根据实验需求(如复用水平、动态范围、预算)做决策。(PS:毕竟DIA便宜,有钱可以做TMT)
领取专属 10元无门槛券
私享最新 技术干货