前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >进化树、群体结构、PCA分析需要对LD进行质控吗?

进化树、群体结构、PCA分析需要对LD进行质控吗?

作者头像
邓飞
发布2023-09-06 10:54:08
3690
发布2023-09-06 10:54:08
举报

1,Admixture建议进行LD质控

Admixtue说明文档中介绍:去掉LD高的SNP不会对结果有影响,因为计算不依赖于LD,会大大提升运行速度。关于Admixture,可以参考这篇博客:Admixture使用说明文档cookbook

如果我们使用plink进行LD质控,可以用下面的代码,标准默认是0.1,有时候也可以选择0.2或者0.05,根据自己的数据量确定。

2,亲缘关系建议使用所有的SNP

亲缘关系矩阵,我们做GS时的GBLUP方法,没见过谁用质控LD后的SNP构建亲缘关系,无论是芯片,还是重测序,一般认为数据量越大,准确性越好,使用质控LD后的SNP构建G矩阵,然后进行GS分析,自废武功,非常无意义。

还有人问我,要不要使用LD质控后的SNP位点进行GWAS分析,我一个黑人打问号???Excuse me???答案是:不可以,要使用全部的SNP,进行基础质控就行了,GWAS就是依赖于LD去进行位点的挖掘,你把LD质控了,你还定位个毛毛。。。

3,PCA分析要不要使用LD质控后的SNP

这个问题,首先要知道PCA是怎么来的,它是根据亲缘关系矩阵计算的!!!,具体参考这篇博客:GCTA学习5 | GCTA计算PCA及可视化,以及这篇文章:主成分分析PCA并给出解释百分比

构建亲缘关系矩阵,不能LD质控SNP位点,你告诉我PCA分析要质控LD位点?why!!!

4,进化树分析要不要使用LD质控后的SNP

进化树是怎么绘制的?它也要用到亲缘关系矩阵,计算遗传距离,不过计算方法和G矩阵不太一样,但是基本趋势一致,所以……,也不能使用LD质控后的SNP位点。

PS:LD质控,是为了降低数据量,特别是admixture进行群体结构分析时,会大大降低运行的时间,当然,有多线程和大内存服务器的小伙伴,完全可以用所有的位点,毕竟成年人的世界,两者都要才是普遍的,都跑一下,看看结果是否有差异。

个人经验,无论是LD质控不质控,只要剩下有一定的数据量,结果变化不大。如果数据量较小,那就会有差异。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档