有老师问:
做GWAS分析时,PCA可以控制群体结构,为何还要使用混合线性模型将亲缘关系矩阵考虑进去呢?
飞哥答:
首先,这是一个非常好的问题。
什么是PCA,PCA就是降维,将群体降维成几类,用于描述群体结构。
为何PCA可以描述群体结构?
我们看一下群体结构是什么?
比如不同的品种,品种内相似,品种间有差异,这些品种如果聚类,可以分为三类,如果做PCA分析可视化,也可以分为三块,这时候PC1,PC2代表的数值放到模型中做协变量,其作用和讲品种作为因子放到模型中做协变量是一样的。
之所以用PCA而不是用品种,因为我们不知道品种分几种!PCA相当于场年季,如果PCA没有明显的分层,说明协变量也没有显著性,加入模型也不会影响结果。但是万一群体有分层,就可以避免由于品种的效应造成的影响。
所以,PCA可以理解为群体的分层,属于将品种间的效应考虑到模型中的操作。
下面,我们看亲缘关系矩阵(kinship),这个在GWAS中称为K矩阵,在GS中称为G矩阵的神奇矩阵,算法类似,结果类似。它的主要作用是为了矫正群体的非独立性。
这个……非独立性是什么?
我们知道方差分析或者一般线性模型中,我们需要数据:独立、齐次、正态。这个独立就是独立性,就是假定观测值之间没有相关性。
如果这些观测值是有相关性呢?比如有父亲的表型,有儿子的表型,有女儿的身高,有侄子的身高,这些个体是有亲缘关系的,也就是说这些个体是有相关的。不考虑这种相关性,强行使用一般线性模型(GLM)模型,会导致模型假阳性较高。当然,如果是自然群体,八竿子打不着,亲缘关系矩阵(kinship)和单位矩阵(对角线为1,非对角线为0)一样,考虑不考虑没有影响,就无所谓了。
结论:
所以呢,PCA主要是矫正群体间的差异,亲缘关系矩阵主要是考虑群体内的关系。如果群体没有分层,大家都是一个总体,那就不用考虑PCA。如果都是自然群体,个体间没有关系非常独立,那就不用考虑亲缘关系矩阵。
但是,如果有群体分层,如果个体间非独立,你不考虑PCA,不考虑Kinship,结果不精确。而考虑PCA,考虑Kinship,即使没有群体分层,没有亲缘关系,模型中加上,结果也不会影响。
所以,GWAS分析中,加上PCA,使用LMM模型考虑kinship,不应该是基本的素养与常规操作吗?