今天介绍一下单倍型分析,之前做GWAS分析时有同学问我单倍型分析相关的问题,当时我还不太会,知识性的东西,特别是软件操作类的东西,从来都是熟能生巧,研究一下,做一下项目,就会了。会了,就要写个教程,然后理解就更深了。
为何要做单倍型分析?
我们做完GWAS分析,得到了显著性位点,注释到了上下游的基因,这时,一个想法浮现在眼前:你如何证明你找到的基因不是假阳性???答案就是单倍型分析,看一下显著性位点附近的区域,是否处于一个高度连锁的区域(block),看一下基因是否在block里面,如果显著位点附近有高连锁的BLOCK并且注释的基因也在block里面,可以证明挖掘的基因没问题,结果八九不离十了,十分可靠。
那如何做单倍型分析呢?
如果按照分析思路的话,是选择显著性为点上下游的区域,计算SNP之间的LD值,然后根据某个阈值进行划分Block,如果有block,那么block区域内只有少数的组合,这些少数的组合就是单倍型。我们定位基因,或者分子标记辅助,都会用到单倍型。
好消息是,不用自己手动计算LD值,然后变成划分block了,有现成的软件。坏消息是软件也要学习,目前主流的两款软:Haploview和LDblockshow,前者是桌面版软件,后者是命令行软件,两者结果基本一致。
LDBlockshow的教程:LDblock绘制连锁不平衡和单体型图
第一篇:Haploview做单倍型教程1--软件安装
下面是Haploview做的结果:
下面是LDblockShow做的结果:
两者结果是一致的。
Haploview因为是GUI界面,可以鼠标点点点的形式,所以更简单:
「官网:」 https://www.broadinstitute.org/haploview/downloads#JAR
「windows系统:」
「Linux系统:」
https://www.java.com/zh-CN/download/
下载安装好之后,在终端运行java,出现帮助文档,说明配置成功。
cmd终端打开,键入java,出现下面界面,说明配置成功。
终端打开,键入java,出现下面界面,说明配置成功。
安装好之后,打开HaploView软件:
打开软件:
终端下,键入命令:
java -jar Haploview.jar
出现界面:
上面就是搞定了软件的安装。
第二篇:Haploview做单倍型教程2--分析教程
需要做单倍型分析的是基因型数据,一般是显著性的SNP,提取上下游500kb,然后进行block的分析。
这里,准备的是plink数据,比如我们要提取:
vcftools --vcf aaa.vcf --chr 6 --from-bp 1000000--to-bp 2000000--recode --out block1
将其转化为plink的map和ped数据:
plink --vcf block1.recode.vcf --recode --out a1
将map的第二列和第四列提取出来,保存为a1.info文件。
ped数据,保持不变:
选择第一种格式:Linkage Format,然后将ped数据导入到Data File中,将info数据导入到Locus Information File文件中。
结果:
查看Block:
查看TaggerSNP:
上面就是下数据分析实操方法。
第三篇:Haploview做单倍型教程3--结果解读
上图就是最常见的LDblock,该图的结果解读。
最上面是SNP的物理位置,有些是均匀的,有些是不均匀的
中间是SNP的名称,用细线联系在一起
最下面红白的正方形是LD值的可视化,每一个正方形是两两SNP的LD结果,颜色越淡说明LD值越小,如果相邻的SNP之间的LD大于某个阈值(比如0.9),那么就构成一个block,下图中的两个红框里面的黑框,就是两个LDblock,第一个block包括的SNP有10,11,12三个SNP,block的距离为82kb,第二个block包括两个snp,包括14和15两个snp,block的距离为32kb。
下图中,第一个block中,一共三个SNP,单倍型分别是:TTC,TTA,CCA,TCA,他们的频率分别是0.548,0.281,0.09和0.078,它们的频率之和为1。第二个block一共有两个SNP,单倍型分别是AG,GA和AA,频率分别是0.402,0.565,0.034,他们之间的频率之和为1.
最下面的0.67是两个block的关联,两个block的线是两者的关联性,线条越黑,说明关联性越强。
这里有两个block,可以选择两个TaggerSNP代表这两个block