前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GATK最佳实践变异检测过程中的GVCF和VCF

GATK最佳实践变异检测过程中的GVCF和VCF

作者头像
简说基因
发布2024-03-12 13:56:37
1.4K0
发布2024-03-12 13:56:37
举报
文章被收录于专栏:简说基因

在GATK最佳实践检测变异过程当中,当我们在调用 HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢?

GVCF和VCF的异同

首先,这两者都是 VCF 文件,都由HEADER和RECORDS组成。

不同之处在于GVCF文件会记录更多的信息,这里更多的信息是指未突变的位点的覆盖情况。从下面的图我们可以直观地看出两者的区别:

可以看到,GVCF文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种GVCF文件记录非突变位点的时候,以块的形式来记录,而后一种GVCF文件则是对非突变和突变位点一视同仁,前一种方式是为了有效地压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种GVCF文件。

通常,GVCF经过FilterMutectCalls 相同的过滤条件过滤后,其结果与VCF的PASS的变异相同。

为什么要使用GVCF

为什么要使用GVCF文件而不是VCF文件呢?这里主要的原因在于多个样本的VCF文件进行合并的时候,需要区分./.和0/0的情况。

./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的VCF文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。

实际上,我们也可以直接将GVCF文件和VCF文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为VCF文件没有未突变的位点的情况。

总的来说,GVCF的好处是:能更方便把一群样本的GVCF联合起来,以便进行下一步分析,提高分析效率。

VCF文件的FORMAT内容详解

QUAL: 指的是caller正确地识别该变异位点的可能性,属于phred-scale quality score的一个应用。

GT,GQ,PL三者的关系:

GT是指该位点最有可能的基因型。

GQ是该位点第二有可能的基因型的PL值。

PL是不同基因型对应的标准化的可能性。

对于二倍体生物来说,PL有三个值,分别对应0/0,0/1,1/1。最有可能的基因型的PL值为0,第二小的是第二个可能。GQ反映的是第二个小的基因型的PL值,如果该值超过99,则定位99,因为超过了99,其几乎不能威胁第一个可能的地位。

计算方法:

PL(0/1) = 0 (the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,

but the next PL is PL(1/1) = 26 (which corresponds to 10^(-2.6), or 0.0025).

QUAL和GQ的区别:

总结

  • 在处理单样本时:可以直接使用VCF文件
  • 在处理多样本时:由于使用普通的vcf文件进行合并,无法区分./.和0/0的情况(./.是未检出的基因型,而0/0是未突变的基因型),会使结果出现偏差。所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。

参考文献

简书:https://www.jianshu.com/p/35935e257ccf

CSDN:https://www.cnblogs.com/timeisbiggestboss/p/9134733.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档