首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Indel和SV以及CNV数据如何做GWAS分析?

Indel和SV以及CNV数据如何做GWAS分析?

作者头像
邓飞
发布于 2025-07-08 09:31:12
发布于 2025-07-08 09:31:12
3720
举报

大家好,我是邓飞,今天介绍一下如何使用Indel和SV数据,进行GWAS分析,参考章节:领取 | GWAS和统计遗传书籍汇总GWAS书籍:《Genome-Wide Association Studies》,电子版pdf的第十章:

变异概念介绍:

  1. indel(插入缺失变异):
    • Indel是“insertions and deletions”的简称,指的是DNA序列中小的插入或缺失变异。具体来说,indel是一种常见的基因组变异,涉及到一个或多个碱基对的加入(插入)或删除(缺失)。Indel变异可能影响基因功能和表型。
  2. SV(结构变异):
    • SV是“structural variants”的简称,指的是基因组中的较大规模变异,通常涉及数百个碱基对到数百万个碱基对。常见的结构变异包括大规模的缺失、重复、倒位和易位等。SV可以对基因功能产生重大影响,并且常常与复杂的疾病和性状相关。
  3. CNV(拷贝数变异):
    • CNV是“copy number variations”的简称,特指在基因组中,某些特定区域的拷贝数的变化。CNV是一种特定类型的SV,它通常涉及基因组中一段较大的DNA序列,可以是插入、删除或重复。CNV可能影响基因表达水平和功能,因此与多种疾病和复杂性状有关。

SV变异挖掘方法:

  • 1. 不一致的读段对方法,根据一对读段的两个读段之间不寻常的比对距离或方向来检测 SV 特征,因此通常基于双端短读段测序技术。
  • 2. 读取深度方法检测基因组中连续位置的异常低或高测序深度的拷贝数变异,例如缺失或重复。
  • 3. split-read 方法从与参考基因组比对中的异常签名中检测读段本身内的 SV 边界。
  • 4. 最后,基于程序集的方法将从头或本地程序集与参考进行比较,以检测 SV 边界。

SV挖掘常用的工具:

  • smoove
  • Manta
  • GRIDSS

SV变异,Indel变异,CNV变异,常常使用vcf格式存储,GWAS分析大都是针对SNP数据,二倍体物种,一般保留二分类的数据,比如AT突变,AA、AT、TT,进而变为0-1-2编码的形式。具体基因型数据常见质控流程,可以参考:GWAS分析中高质量基因型数据处理

SV基因型数据转化:

GWAS常用的软件:TASSEL、GAPIT、GEMMA、GCTA都不支持SV直接的基因型数据,要么是SNP类型的plink格式数据,要么是0-1-2的数字格式,因此,我们需要对SV或者Indel或者CNV的基因型数据进行格式转换。

我们需要将有SV格式的vcf数据,进行处理,处理步骤包括将ALT和REF变为A和T,将Type类型中,提取SV或者INdel或者CNV字符。

比如原始vcf数据:

图片
图片

示例代码:

awk 'BEGIN {OFS = "\t"} /^#/ {print} !/^#/ && $8 ~ /SVTYPE/ { $4 = "A" $5 = "T" gsub(/Gm0?/,"", $1) print}' \ smoove_filtered.vcf > smoove_reformatted.vcf

修改后的vcf数据:

图片
图片

这样,SV的基因型数据,就变为了类似SNP类型的数据,就可以变为plink格式,直接在TASSEL、GEMMA、GCTA中使用了。

注意事项:

单纯提取Indel、SV或者CNV进行GWAS分析,如果位点足够多的话,和提取的SNP结果应该基本一致,因为都是关联的基因,是基因导致性状有变化,而不是这些变异,这些变异这是基因LD状态的代表标签。

基因注释时,需要根据Indel、SV和CNV的区间,SNP只有一个位置,而Indel、SV和CNV是两个位置(一个开头,一个结尾),进行上下游区间划分时,注意区分。基因注释参考:批量对显著性SNP进行注释:bedtools使用bedtools进行gwas基因注释

无论是Indel,SV还是CNV,以及SNP数据,GWAS分析流程都是类似的,变为SNP格式的数据,计算PCA、计算kinship也都是一样的。大片段的变异,有时候能找到比较大的效应,有比较大的PVE(GWAS中的effect有什么用?计算PVE和PRS!GWAS软件:GAPIT+GEMMA+GCTA如何计算PVE?),这些位点对于分子标记辅助MAS和单位点筛选是非常具有实际意义的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档