大家好,我是邓飞。 最近星球的小伙伴问了很多plink做GWAS相关的问题,这里汇总一下,希望对后来者有用。在开始之前,我想先介绍一下知识诅咒这个概念:
知识诅咒(Curse of Knowledge)是一种常见的认知偏差,指当一个人掌握了某类知识或技能后,会难以想象 “自己当初不懂时的状态”,也很难理解 “为什么别人学不会”。就像你学会骑自行车后,再也想不起 “学骑车时总摔的恐慌”,甚至觉得 “保持平衡不是很简单吗”—— 这种 “忘了初学者的痛苦”,就是知识诅咒的核心表现。
为什么会出现知识诅咒呢?因为初学者(小白)对知识的理解都是碎片化和表面化的,但是掌握的人(高手、大师)对知识的掌握是结构化和内隐化的,很多东西变成了直觉式的反应,所以很多高手写的东西高深莫测不知所云,强烈的劝退感扑面而来。
我写的GWAS教程系列,是边学习边总结,所以对小白比较友好,很多小伙伴都说是帮助他们入门的教程,其实这是双赢,因为我在整理知识的时候也对知识理解得更深入了,毕竟格言是这样说的:“如果你对某件事什么都不懂,那就写一本书吧”。
下面这个图,就是说明不同的方法吸收知识的百分比:
孔子曰:”学然后知不足,教然后知困“,意思是学习时,接触的知识越多,越容易看到到自己的局限和不懂得地方,然后更主动的学习,教导时,需要把知识清晰的传递给他人,这个过程中会暴漏自己的理解漏洞,进而促使自己深入专研和完善认知。所以,我写教程或者博客的过程中,也是整理自己的知识,加深自己的理解的过程,所谓赠人玫瑰手留余香是也。
还有一种保持对知识新鲜感的方法,就是不断回答问题,知识星球不断的有老师问问题,也是我不断学习不断进步的源泉(飞哥的知识星球)
ok,开始正文。
plink软件下载:
plink:https://www.cog-genomics.org/plink/
git软件下载:git: https://git-scm.com/downloads
Windows系统中,先安装git软件,然后在windows系统中配置plink软件,看视频:(https://www.bilibili.com/video/BV1Sa411A7Dm/?spm_id_from=333.337.search-card.all.click)
配置完之后,在终端键入plink,出现下面界面,就说明安装好了:
表型数据和基因型数据的FID和IID要对应起来,顺序不必一致。
表型数据第一列FID,第二列IID,其它是性状数据,比如y1, y2这样整理。
协变量也是这样的整理格式,第一列是FID,第二列是IID,其它是数字协变量(比如pca文件)
注意,如果有因子协变量,需要变为dummy数字变量,具体方法:
1, 下面数据,第三列是品种数据,品种3,品种4,品种5,需要变为哑变量
2,plink --file b --covar cov1.txt --write-covar --dummy-coding
性状数据,都可以整理为一个文件中,比如phe.txt, 第一列是FID,第二列是IID,第三列是y1, 第四列是y2,以此类推…… !
分析模型:
plink --file b --pheno phe.txt --allow-no-sex --linear --out re
默认是分析第三列(y1),如果想要分析第四列,可以这样做:
plink --file b --pheno phe.txt --allow-no-sex --linear --out re --mpheno 2
这里参数-mpheno 2
,2就是分析第四列(2+2)的数据(y2)
之前写过博客:(plink分析100个性状的批量gwas分析)如果想要分析100个性状,可以写一个循环:
for i in {1..100};do echo "nohup plink --file b --allow-no-sex --pheno mphe.txt --linear --out y_${i}_result --mpheno $i "|bash;done
上面代码就是多性状gwas分析,代码解析:
如果想要更高效的学习GWAS,参加培训是性价比更高的选择,互动性强,项目式的练习,加上技术支持和视频回放,没有学不会的道理。这个GWAS培训,不是单纯‘讲流程’(避免 5% 的低效),而是带着你一步步实操(从环境配置到批量分析,每步跟着敲代码,对应 75% 的吸收);现场有实时答疑(你卡壳的地方,老师当场演示解决,相当于‘教你跨过坑’,对应 90% 的吸收);还有一年技术支持(学完后练手遇到问题,随时问,避免‘课上懂了,下课就忘’)