这里,总结一下GWAS的学习笔记,GWAS全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标记选择(MAS)或者基因定位,这次学习的教程是plink做GWAS,plink是个很好的软件,但是我之前做GWAS都是使用R包,听说plink
和EMMAX
做GWAS更快,更好,更容易写出pipeline
。就利用网上的信息写一个操作笔记,先操作plink,然后是EMMAX。对于一些有模型基础的同学,理解起来应该不难。
GWAS分析的两类性状:
GWAS的分析方法:
「一般线性模型(GLM):」
这里,SNP作为固定因子,可以考虑其它协变量(比如性别,PCA,群体结构等等)
「混合线性模型(MLM):」
❝教程代码和数据下载:https://github.com/MareesAT/GWA_tutorial/ ❞
这个教程非常的经典,我看网上很多人推荐。
❝相关的文章:https://onlinelibrary.wiley.com/doi/full/10.1002/mpr.1608 ❞
教程中包括数据的过滤,SNP的过滤,样本的过滤,质控的标准等等,介绍的非常清楚,看完这篇文章,感觉plink的语法知识又增加了很多。
首先,在linux环境下,新建一个文件夹,进入后运行下面命令:
git clone https://github.com/MareesAT/GWA_tutorial.git
下载之后,目录如下:
.
└── GWA_tutorial
├── 1_QC_GWAS.zip
├── 2_Population_stratification.zip
├── 3_Association_GWAS.zip
├── 4_PRS.doc
└── README.md
1 directory, 5 files
如果你已经安装了这两个软件,就不用下载安装了。
这里,使用unzip
命令,解压zip文件。
unzip 1_QC_GWAS.zip
unzip 2_Population_stratification.zip
unzip 3_Association_GWAS.zip
主要是根据一些筛选标准,去掉一些位点。筛选标准有缺失百分比,哈温等等。
「文件夹:」1_QC_GWAS
主要文件:
1_Main_script_QC_GWAS.txt
HapMap_3_r3_1.bed
HapMap_3_r3_1.bim
HapMap_3_r3_1.fam
check_heterozygosity_rate.R
Relatedness.R
hist_miss.R
pops_HapMap_3_r3
hwe.R
MAF_check.R
gender_check.R
heterozygosity_outliers_list.R
inversion.txt
其中1_Main_script_QC_GWAS.txt
里面包括所有运行的代码,HapMap*
文件是plink格式的文件,*R
是几个用于检测和可视化的R脚本,我们后面会依次讲解这些代码。
「文件夹:」2_Population_stratification
1_Main_script_QC_GWAS.txt
2_Main_script_MDS.txt
MDS_merged.R
其中,1_Main_script_QC_GWAS.txt
,2_Main_script_MDS.txt
为运行代码。
「文件夹:」 3_Association_GWAS
QQ_plot.R
Manhattan_plot.R
3_Main_script_association_GWAS.txt
其中,3_Main_script_association_GWAS.txt
为运行代码。
是一个word文件:
这是独立的一步,有需要的可以查看里面的分析方法。
欢迎关注我的公众号,一起跨入学习进步!