首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GWAS实战教程之利用PLINK进行GWAS分析

GWAS实战教程之利用PLINK进行GWAS分析

作者头像
生信与临床
发布于 2022-08-21 09:15:04
发布于 2022-08-21 09:15:04
4.5K00
代码可运行
举报
运行总次数:0
代码可运行

这一期内容是GWAS实战的重点部分,小陈会教大家如何简单使用PLINK这个软件完成一个常规的GWAS分析。

首先把咱们之前做的ped和map文件放到plink软件的目录下,这里我们可以使用dir这个指令查看,如下图所示:

然后执行如下指令:

plink.exe --file myWES_chr2 --make-bed --out myWES_chr2

最后会生成myWES_chr2.bed, myWES_chr2.bim和myWES_chr2.fam这三个文件,如下图所示:

接着,我们执行如下指令计算这些样本的遗传主成分:

plink.exe --bfile myWES_chr2 --pca 5 --out myWES_chr2

这里的参数--pca 5表示的是输出前五个主成分,然后我们可以得到myWES_chr2.eigenval和myWES_chr2.eigenvec这两个文件,其中.eigenvec文件储存着具体到每个样本的主成分数据,是后续矫正的部分:

‍‍‍

‍‍

‍‍

通过主成分结果我们可以确定人群分层的情况,从而确定需要矫正的主成分个数(一般矫正的主成分多为5~10个)。

接下来,我们可以制作一下协变量文件,这里我们以sex,age和前五个主成分为协变量,注意PLINK要求协变量文件的前两列必须是FID和IID。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(data.table)
sample_info <- fread('./sample_info.csv')
sample_info$sex <- -9
sample_info$sex[which(sample_info$`gender:ch1`=="Male")] <- 1
sample_info$sex[which(sample_info$`gender:ch1`=="Female")] <- 2
sample_info$smoking <- -9
sample_info$smoking[which(sample_info$`smoking_status:ch1`=="Non-smoker")] <- 1
sample_info$smoking[which(sample_info$`smoking_status:ch1`=="Smoker")] <- 2
sample_info$FID <- sample_info$id
sample_info$IID <- sample_info$id
sample_info$PID <- 0
sample_info$MID <- 0
pca <- fread("C:/Users/86151/Downloads/plink/myWES_chr2.eigenvec", header=F)
colnames(pca) <- c('FID','IID','PC1','PC2','PC3','PC4','PC5')
mycovar <- sample_info[,c("FID","sex","age:ch1")]
colnames(mycovar) <- c('FID','sex','age')
mycovar <- merge(mycovar, pca, by='FID')
mycovar <- mycovar[,c('FID','IID','sex','age','PC1','PC2','PC3','PC4','PC5')]
fwrite(mycovar, 'mycovar.tsv', sep='\t')

‍‍

接下来把做好的mycovar.tsv文件放到plink软件所在的目录底下,

最后,我们执行如下命令即可得到一个简单的GWAS summary结果:

plink.exe --bfile myWES_chr2 --maf 0.01 --hwe 2e-6 --covar mycovar.tsv --covar-number 1-7 --logistic --out myWES_chr2

注意第一个参数—bfile是输入文件的前缀,--maf是指最小等位基因的频率阈值(我们自动过滤掉maf小于0.01的SNP),--hwe是指哈迪温伯格平衡的p值阈值(我们自动过滤掉哈迪温伯格平衡的p值小于2e-6的SNP),--covar就是协变量文件名,--covar-number是指我们选择第1到7列为协变量(计算列数时自动跳过FID和IID这两列),--logistic表示使用逻辑回归模型(因为咱们的表型是吸烟和不吸烟这样的二分类变量),--out表示输出结果的前缀。最后我们会得到以.assoc.logistic结尾的文件,这就是我们的结果文件。

接下来,我们可以在CMD里输入如下指令查看结果文件的前几行数据:

more myWES_chr2.assoc.logistic

最后,使用“Q”健退出查看。

关于如何使用PLINK进行GWAS分析就先介绍到这里,下期我会带大家解读一下结果,敬请期待!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GWAS实战教程之制作PLINK格式的文件(下)
在上期推送中,我带领大家制作了表型文件和.map文件,今天我们学习一下如何制作.ped文件,关于.ped文件的信息请参见往期内容GWAS实战之制作PLINK格式的文件(上)。
生信与临床
2022/08/21
9080
GWAS实战教程之制作PLINK格式的文件(下)
plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义
大家好,我是邓飞。之前编写的GWAS Cookbook很受欢迎(快来领取 | 飞哥的GWAS分析教程V6版),但是也有一些知识点很容易让人疑惑,这里挑选出来介绍一下。
邓飞
2024/11/26
9580
plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义
多基因风险评分(PRS)分析教程
多基因风险评分(Polygenic Risk Score)分析过程概览。PRS 分析需要两个输入数据集:i)base data(GWAS):全基因组范围内遗传变异的基因型-表型关联的摘要统计信息(例如 beta,P值) ;ii)target data:目标样本中个体的基因型和表型。基于 base data 得到的 SNP 效应值计算 target data 中样本的 PRS。
生信菜鸟团
2020/08/04
17K0
多基因风险评分(PRS)分析教程
如何使用plink进行二分类性状的GWAS分析并计算PRS得分
这篇博客,用之前GWAS教程中的示例数据(快来领取 | 飞哥的GWAS分析教程),把数据分为Base数据和Target数据,通过plink运行二分类的logistic模型进行GWAS分析,然后通过PRSice-2软件,进行PRS分析。最终,选出最优SNP组合,并计算Target的PRS得分,主要结果如下:
邓飞
2022/12/13
3K0
如何使用plink进行二分类性状的GWAS分析并计算PRS得分
GWAS实战教程之解读PLINK的summary结果
在这一期内容中,小陈会带大家简单认识一下PLINK软件输出的GWAS summary结果。相信之前关注公众号的伙伴肯定对GWAS summary数据不陌生,因为它是我们做孟德尔随机化研究的基础,由于不同GWAS分析软件输出的summary结果不太一致,这让很多朋友很是头疼,今天我就以PLINK的输出格式和大家讲解一下,希望借此使大家理解GWAS summary数据。
生信与临床
2022/08/21
2.3K1
GWAS实战教程之解读PLINK的summary结果
plink分析二分类性状的GWAS
二分类性状的logistics可以使用plink软件进行分析。这里介绍一下数据的整理和命令的应用。
邓飞
2024/07/05
3390
plink分析二分类性状的GWAS
各种软件/包构建G矩阵结果比较
飞哥注:这篇是我同事苏惠写的,内容更全面,代码更完整,我的上一篇plink计算的PCA为什么和GCTA计算的不一样?是一个引子,而且这一篇给出了plink --pca 样本数时,
邓飞
2021/11/29
9530
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
4.3K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
跟着Nature Genetics学GWAS分析:emmax软件gwas分析/qqman包展示结果
https://www.nature.com/articles/s41588-023-01340-y
用户7010445
2023/08/23
8780
跟着Nature Genetics学GWAS分析:emmax软件gwas分析/qqman包展示结果
笔记 | GWAS 操作流程3:plink关联分析--完结篇
注意,这里我使用的是ped和map格式,如果ped文件中有表型数据(第六列),如果想指定表型数据,用--pheno,包括三列:家系,个体,表型值。
邓飞
2020/05/13
9.6K1
全基因组关联分析(GWAS)学习笔记——3.2
这一步突然多出来一个inversion.txt文件,怎么来的还不太清楚 使用到的命令是
用户7010445
2020/03/03
1.6K0
plink做GWAS分析流程及注意事项
大家好,我是邓飞。 最近星球的小伙伴问了很多plink做GWAS相关的问题,这里汇总一下,希望对后来者有用。在开始之前,我想先介绍一下知识诅咒这个概念:
邓飞
2025/08/13
1450
plink做GWAS分析流程及注意事项
笔记 | GWAS 操作流程4-5:LM模型+数值+因子+PCA协变量
第一列为FID 第二列为ID 第三列以后为协变量(注意,只能是数字,不能是字符!)
邓飞
2020/05/29
4.1K0
笔记 | GWAS 操作流程4-5:LM模型+数值+因子+PCA协变量
PRS多基因评分教程学习笔记(二)
之前学习了Base Data质控过程,下面继续,最近一直没有开启博客写作,十月将过,加紧补点。
用户1075469
2020/03/03
2.5K0
plink软件cookbook
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
邓飞
2021/03/30
2.4K0
plink软件cookbook
统计遗传学:第八章,基因型数据质控
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
邓飞
2022/12/12
1.9K0
统计遗传学:第八章,基因型数据质控
GWAS分析中使用PCA校正群体分层
GWAS通过分析case/control组之间的差异来寻找与疾病关联的SNP位点,然而case和control两组之间,可能本身就存在一定的差异,会影响关联分析的检测。
生信修炼手册
2019/12/19
5K0
GWAS分析中使用PCA校正群体分层
一文搞定基因型数据清洗
我已经下载整理好了,下载本书的电子版pdf+数据+代码,链接:书籍及配套代码领取--统计遗传分析导论
邓飞
2022/12/13
9870
一文搞定基因型数据清洗
不会安装使用PRSice-2软件就太不讲究了
之前说要学习PRS,研究了一下,发现它和MAS、GWAS、GS都有相通之处,尤其是MAS,对于分子标记辅助选择,选择最适合的位点进行表型数据的预测,真是一个非常好的工具,它可以自动考虑LD冗余,矫正effect,选择最优子集,并给出目标群体(候选群)的预测值。
邓飞
2022/12/13
9981
不会安装使用PRSice-2软件就太不讲究了
GWAS实战之制作PLINK格式的文件(上)
在上一期内容中,小陈让大家下载了一些数据。从今天开始,我们就要用这些数据干点酷酷的事了。
生信与临床
2022/08/21
1.1K1
GWAS实战之制作PLINK格式的文件(上)
推荐阅读
相关推荐
GWAS实战教程之制作PLINK格式的文件(下)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验