ORIGIN-GENE
2024
11.25
解密非靶代谢组:PLS-DA与OPLS-DA的优势
前言
在非靶向代谢组学研究中,PLS-DA(偏最小二乘判别分析)和OPLS-DA(正交偏最小二乘判别分析)是两种常用的多变量统计分析方法,它们在分析中扮演着重要的角色。以下是这两种方法的一些关键点:
一、PLS-DA分析
ORIGINGENE
PLS-DA是一种有监督的判别分析统计方法,通过建立代谢物表达量与样本类别之间的关系模型来实现对样品类别的预测。它类似于PCA,但在分析时必须对样品进行指定分组,这种模型计算的方法强行把各组分门别类,有利于发现不同组间的异同点。PLS-DA得分图展示了样本在第一主成分(t[1])和第二主成分(t[2])上的分布。不同颜色或形状的点代表不同的样本组,能够直观地观察到不同组别之间的分离程度。
PLS-DA可以用于两组及以上组别的分类比较,通过最大化组间差异来获得比PCA更好的分离效果。
图1 PLS-DA得分图
二、OPLS-DA分析
ORIGINGENE
OPLS-DA是PLS-DA的改进版本,它结合了正交信号矫正技术,能够滤除与分类信息无关的噪声,提高模型的解析能力和有效性。在OPLS-DA得分图上,有两种主成分,即预测主成分t[1]和正交主成分to[1]。OPLS-DA将组间差异最大化的反映在第一个主成分(即t[1])上,而正交主成分则反映了组内的变异。
OPLS-DA通常用于两组样本间的对比,寻找差异代谢物。它通过最大化组间差异和最小化组内差异来提高模型的预测能力。
图2 OPLS-DA得分图
三、模型评估
ORIGINGENE
为了避免有监督模型发生过拟合,通常会采用置换检验(Permutation test)对PLS-DA和OPLS-DA模型进行检验,以保证模型的有效性。关于置换检验的详解可参考往期推送
(点击查看:技术介绍 | WOW!置换检验图再也不是问题!)
模型质量评估标准包括R2X、R2Y和Q2这三个指标,这些指标越接近1表示模型拟合数据效果越好。其中,R2X和R2Y:分别表示模型对自变量X和因变量Y的解释率;Q2是通过对模型进行交叉验证计算得出的,用以评价模型的预测能力,通常Q2> 0.5被认为是有效模型,Q2> 0.9则表示模型非常优秀。
表1 PLS-DA模型的评价参数
注:表中A:表示主成分数;R2X:表示模型对X变量解释率;R2Y:表示模型对Y变量的解释率;Q2:表示模型预测能力。
四、差异代谢物筛选
ORIGINGENE
1) OPLS-DA模型得到的变量权重值(Variable Importance for the Projection, VIP)用于衡量各代谢物的表达模式对样本分类判别的影响强度和解释能力,VIP>1的代谢物被认为在模型解释中具有显著贡献。
2) 通常以OPLS-DA VIP>1和T检验p value <0.05为显著性差异代谢物筛选标准。
综上所述,PLS-DA和OPLS-DA在非靶向代谢组学中是用于识别差异代谢物、揭示生物标志物、疾病发病机理和药物作用机制的重要工具。通过这些分析,研究人员可以更深入地理解数据背后的生物学意义。
下期精彩继续
元莘生物提供多组学测序及分析服务!
感兴趣的老师欢迎垂询
# END #
上海市闵行区元江路3699号1号楼3层
Origingene Bio-pharm Technology Co.Ltd.
领取专属 10元无门槛券
私享最新 技术干货