之前写了几篇如何计算单倍型的博文:如何计算群体中的单倍型频率,单倍型的显著性分析,以及介绍了为何要做单倍型分析:GWAS分析完,要做单倍型图,还要做单倍型的显著性分析?,以及每个个体的单倍型:单倍型分析:个体所对应的单倍型是?,以及单倍型显著性如何计算:不同单倍型和表型数据的显著性分析
星球的小伙伴(飞哥的知识星球)问了一个问题,单倍型与表型的显著性有什么用处?为何不用显著性位点的显著性?
1,为何不用SNP的显著性,而用单倍型的显著性?
SNP的显著性,在GWAS分析时已经计算了,在考虑了各种影响因素以及PCA的影响后,对每个位点进行显著性检验,给出SNP的effect和Pvalue,根据Pvalue做QQ图和曼哈顿图(R语言如何绘制GWAS的曼哈顿图和QQ图),但是这种位点会有假阳性的可能,就是说位点可能是随机突变,统计显著性是假阳性。为了降低这种可能,我们会根据周围位点的P值作为佐证,因为位点间有LD,所以周围的P值也比较低,说明这个位点是真实引起差异的。
进一步的方法,是该位点处于Block中,而且同一个BLOCK不同单倍型对应的表型数据有差异的话,就更好了,可以说铁一般的证据。
2,单倍型与表型数据有显著性差异,如何利用?
这个问题之前,我们先讨论一下GWAS中显著SNP如何利用?我们进行注释基因,研究基因的功能,或者用PRS进行多基因评分,或者用这些位点进行分子标记辅助,设计引物,看一下这个位点的分型进行表型筛选。
同样的,单倍型可以分为优势单倍型,如果单倍型之间达到显著性差异,我们可以根据设计引物,进行单倍型筛选,对于PRS或者分子标记辅助(MAS)更好用。
3,杂交群体,单倍型应该如何选择
之前的博客中,默认是杂合单倍型被删除的,如果想要保留,可以设置参数:hapResult <- vcf2hap(vcf,hetero_remove = F)
## 导入基因型vcf数据
library(geneHapR)
vcf = import_vcf("df2.vcf")
# 单倍型分型
hapResult <- vcf2hap(vcf)
会给出每个个体的单倍型情况,包括杂合的单倍型。
注意:每个个体只有一个单倍型,一般我们根据单倍型的频率,选择前几个,频率很小的就不加入分析了。