首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GWAS | 用了PCA为何还要考虑kinship吗?

GWAS | 用了PCA为何还要考虑kinship吗?

作者头像
邓飞
发布于 2021-09-27 08:47:45
发布于 2021-09-27 08:47:45
2.2K0
举报

GWAS | 用了PCA为何还要考虑kinship吗? #2021.9.9

有老师问:

做GWAS分析时,PCA可以控制群体结构,为何还要使用混合线性模型将亲缘关系矩阵考虑进去呢?

飞哥答:

首先,这是一个非常好的问题。

什么是PCA,PCA就是降维,将群体降维成几类,用于描述群体结构。

为何PCA可以描述群体结构?

我们看一下群体结构是什么?

比如不同的品种,品种内相似,品种间有差异,这些品种如果聚类,可以分为三类,如果做PCA分析可视化,也可以分为三块,这时候PC1,PC2代表的数值放到模型中做协变量,其作用和讲品种作为因子放到模型中做协变量是一样的。

之所以用PCA而不是用品种,因为我们不知道品种分几种!PCA相当于场年季,如果PCA没有明显的分层,说明协变量也没有显著性,加入模型也不会影响结果。但是万一群体有分层,就可以避免由于品种的效应造成的影响。

所以,PCA可以理解为群体的分层,属于将品种间的效应考虑到模型中的操作。

下面,我们看亲缘关系矩阵(kinship),这个在GWAS中称为K矩阵,在GS中称为G矩阵的神奇矩阵,算法类似,结果类似。它的主要作用是为了矫正群体的非独立性。

这个……非独立性是什么?

我们知道方差分析或者一般线性模型中,我们需要数据:独立、齐次、正态。这个独立就是独立性,就是假定观测值之间没有相关性。

如果这些观测值是有相关性呢?比如有父亲的表型,有儿子的表型,有女儿的身高,有侄子的身高,这些个体是有亲缘关系的,也就是说这些个体是有相关的。不考虑这种相关性,强行使用一般线性模型(GLM)模型,会导致模型假阳性较高。当然,如果是自然群体,八竿子打不着,亲缘关系矩阵(kinship)和单位矩阵(对角线为1,非对角线为0)一样,考虑不考虑没有影响,就无所谓了。

结论:

所以呢,PCA主要是矫正群体间的差异,亲缘关系矩阵主要是考虑群体内的关系。如果群体没有分层,大家都是一个总体,那就不用考虑PCA。如果都是自然群体,个体间没有关系非常独立,那就不用考虑亲缘关系矩阵。

但是,如果有群体分层,如果个体间非独立,你不考虑PCA,不考虑Kinship,结果不精确。而考虑PCA,考虑Kinship,即使没有群体分层,没有亲缘关系,模型中加上,结果也不会影响。

所以,GWAS分析中,加上PCA,使用LMM模型考虑kinship,不应该是基本的素养与常规操作吗?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档