大家好,我是邓飞,今天介绍一下如何使用Indel和SV数据,进行GWAS分析,参考章节:领取 | GWAS和统计遗传书籍汇总中GWAS书籍:《Genome-Wide Association Studies》,电子版pdf的第十章:
变异概念介绍:
SV变异挖掘方法:
SV挖掘常用的工具:
SV变异,Indel变异,CNV变异,常常使用vcf格式存储,GWAS分析大都是针对SNP数据,二倍体物种,一般保留二分类的数据,比如AT突变,AA、AT、TT,进而变为0-1-2编码的形式。具体基因型数据常见质控流程,可以参考:GWAS分析中高质量基因型数据处理
SV基因型数据转化:
GWAS常用的软件:TASSEL、GAPIT、GEMMA、GCTA都不支持SV直接的基因型数据,要么是SNP类型的plink格式数据,要么是0-1-2的数字格式,因此,我们需要对SV或者Indel或者CNV的基因型数据进行格式转换。
我们需要将有SV格式的vcf数据,进行处理,处理步骤包括将ALT和REF变为A和T,将Type类型中,提取SV或者INdel或者CNV字符。
比如原始vcf数据:
示例代码:
awk 'BEGIN {OFS = "\t"} /^#/ {print} !/^#/ && $8 ~ /SVTYPE/ { $4 = "A" $5 = "T" gsub(/Gm0?/,"", $1) print}' \ smoove_filtered.vcf > smoove_reformatted.vcf
修改后的vcf数据:
这样,SV的基因型数据,就变为了类似SNP类型的数据,就可以变为plink格式,直接在TASSEL、GEMMA、GCTA中使用了。
注意事项:
单纯提取Indel、SV或者CNV进行GWAS分析,如果位点足够多的话,和提取的SNP结果应该基本一致,因为都是关联的基因,是基因导致性状有变化,而不是这些变异,这些变异这是基因LD状态的代表标签。
基因注释时,需要根据Indel、SV和CNV的区间,SNP只有一个位置,而Indel、SV和CNV是两个位置(一个开头,一个结尾),进行上下游区间划分时,注意区分。基因注释参考:批量对显著性SNP进行注释:bedtools,使用bedtools进行gwas基因注释
无论是Indel,SV还是CNV,以及SNP数据,GWAS分析流程都是类似的,变为SNP格式的数据,计算PCA、计算kinship也都是一样的。大片段的变异,有时候能找到比较大的效应,有比较大的PVE(GWAS中的effect有什么用?计算PVE和PRS!,GWAS软件:GAPIT+GEMMA+GCTA如何计算PVE?),这些位点对于分子标记辅助MAS和单位点筛选是非常具有实际意义的。