首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Top链与Forward链

Top链与Forward链

作者头像
邓飞
发布于 2020-12-29 06:33:58
发布于 2020-12-29 06:33:58
1.3K00
代码可运行
举报
运行总次数:0
代码可运行

最近,有同学问我Illumina芯片数据中Top链,Forward链,以及与refSNP的区别,我查了一些资料,汇总如下。如果有错误,还请留言区批评指正,我也是现学现卖。

「参考:」

https://gengen.openbioinformatics.org/en/latest/tutorial/coding/#introduction

这里介绍一下芯片的几种格式:

  • Forward allele
  • A/B allele
  • TOP/BOT allele

Forward allelel

这是大多数人应该研究的等位基因。它是指参考基因组中前链的等位基因。注意,不同版本的参考基因组往往在具有共同SNP的特定位置上可能有所不同;例如,如果GRCh37在参考链的SNP中有一个次等位基因,GRCh38则倾向于将该等位基因变回主等位基因,因此理想情况下,正向等位基因应该始终与基因组结合构建以唯一标识SNP。

前链(Forward)和后链(Reverse)来源于dbSNP数据库

Illumina's A/B allele coding

这是Illumina定义的类型,等位基因编码方法解决了上述问题,即等位基因不依赖于特定的基因组组合,而是基于实际的多态性本身。

简而言之,如果两个多态性中的一个是A或T,另一个是C或G,那么A或T被称为A等位基因,C或G被称为B等位基因。

❝Illumina's A/B allele coding, or TOP/BOT strand definition, is explained in here in detail by Illumina. The allele coding method solves the problem aformentioned, that is, the alleles are not dependent on the specific genome assembly, but are based on the actual polymorphism itself. Briefly, if one of the two polymorphism is A or T, and the other one is C or G, then the A or T is refered to as A allele, and the C or G is refered to as B allele, and the strand with A or T is refered to as TOP and BOT strand, respectively. ❞

有时候,也会用1/2来表示A/B

❝Sometimes, people often use 1/2 to denote Illumina's A/B allele, since numeric coding is more convenient in many scenarios and since some old association software only recognize numeric coded alleles. ❞

TOP/BOT allele

如果两个多态性中的一个是A或T,另一个是C或G,带有A或T的链分别称为TOP和BOT链.

❝Briefly, if one of the two polymorphism is A or T, and the other one is C or G, then the A or T is refered to as A allele, and the C or G is refered to as B allele, and the strand with A or T is refered to as TOP and BOT strand, respectively. ❞

注意:

如果多态性是A/T或C/G,那么穿过环绕序列(SNP的上游或下游的两个核苷酸)找到一对明确的核苷酸,然后应用类似的规则:如果A或T在SNP的5'侧,那么它是Top链,否则就是BOT链。对于Top链,A和B等位基因分别表示A和T(或C和G);而对于BOT链,A和B等位基因分别表示T和A(或G和C)

❝If the polymorphism is A/T or C/G, then walk through the surrouding sequence (the two nucleotides up or downstream of the SNP) to find a pair of unambiguous nucleotides, and then a similar rule is applied: if A or T is on 5' side of the SNP, then it's a TOP strand otherwise it's a BOT strand. For TOP strand, A and B allele denote A and T (or C and G), respectively; whereas for BOT strand, A and B allele denote T and A (or G and C), respectively. ❞

Illumina的编码方案不依赖于前链(Forward)的定义(因此正确的基因组组装),因此它几乎总是确保基因组构建之间的一致性,并确保新测序基因组序列或未组装基因组序列的即时等位基因指定。

另外,在Illumina BeadStudio软件中,可以指定AB类型,或者ACGT类型(TOP链),或者Forward链类型。TOP alleles是TOP链,但不一定是Forward链,具体解释如下:

❝When exporting genotypes from the Illumina BeadStudio software, the user can choose AB genotypes, or ACGT genotypes (commonly refered to as "TOP alleles"), or forward strand genotype in newer version of the software. The TOP alleles is the allele on the TOP strand, which may or may not be the forward strand: see the example above, the "fwd/B" means that dbSNP's forward strand corresponds to Illumina's BOT strand, so the "TOP allele" is the opposite as the "forward strand allele". Unfortunately many users simply do not know or understand what is "TOP allele": they simply take for granted that "TOP" means "forward" and then complain that there are many discordances when merging two different data sets (one coded as forward strand and one exported from BeadStudio). The convert_bim_allele.pl program that I describe in this article will solve problems like this. ❞

用Top链还是Forward链

主流的还是用Forward链多一点,当然如果你之前的数据是Top链,那还是要用Top才可以合并。

**注意:**Top链和Forward不是对应的!

  • Top链与Bot链对应
  • Forward链与Reverse链对应

Top链的位点分型,有时候和Forward是一致的,有时候是不一样的。因为Top链的规则是“如果多态性是A/T或C/G,那么穿过环绕序列(SNP的上游或下游的两个核苷酸)找到一对明确的核苷酸,然后应用类似的规则:如果A或T在SNP的5'侧,那么它是Top链,否则就是BOT链”,它会根据SNP的上下游确定。

dbSNP中T>C是什么意思?

比如rs1004491这个SNP,在dbSNP数据库中是T/C突变

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rs1004491 [Homo sapiens]
Variant type:SNVAlleles:T>C[Hide Flanks]
AAAGCCTTCTGAACTGAGTGAAAATACAGCCAAGATCTTGGCAAAGCTTC
TCCCTCAGTATTTAGACCAGGTAAGAATTTCTTGACTCATCTCCAACATA
[T/C]
GTGTTTACTGTGGAAAACACACATTTTATTTTCTTGCTATTGCATGTTAT
TGCTGGCCGGGGACCCAATTGCAGTCTCTTTAAGCCTTCAACAGTTGGCT

之所以是T>C,是因为平均而言,这个位点T为主等位基因(major),C为次等位基因(minor)

下图可以看到,整体而言(209010个样本),T的频率为0.701,C的频率为0.298,当然对于少数的群体(比如这里的Asian)中,T为0.482,C为0.518,但整体而言T>C。

好了,就到这里。后面理解更深了,我再更新。

阅读原文,查看相关资料。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
plink软件cookbook
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
邓飞
2021/03/30
2.3K0
plink软件cookbook
Variant 分析阶段小结1-基础碎碎念
所谓遗传变异是生物体内遗传物质发生变化而造成的可以遗传给后代的变异,这些变异导致了生物在不同水品上体现出遗传的多样性。生物信息学中各种基因组研究的基础就是遗传变异的研究,比如进化和各种表型的研究。
生信技能树
2018/07/27
1.7K0
Variant 分析阶段小结1-基础碎碎念
vcf2maf—从VCF到MAF,解锁基因突变的秘密
vcf2maf 是由 Cyriac Kandoth 主导开发的一款用于将 VCF (Variant Call Format) 文件转换为 MAF (Mutation Annotation Format) 文件的生信分析工具。广泛应用于癌症基因组研究中的变异数据处理,其具有以下特性:
生信菜鸟团
2024/06/12
2.6K0
vcf2maf—从VCF到MAF,解锁基因突变的秘密
手把手学习TCGA数据库:SNP突变分析第二期
各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。
百味科研芝士
2019/06/17
4.7K0
手把手学习TCGA数据库:SNP突变分析第二期
图文详解 VCF 生信格式 (变异信息)
vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息
白墨石
2023/11/10
4.2K1
图文详解 VCF 生信格式 (变异信息)
孟德尔随机化之遗传学概述
许多生物的遗传信息(或基因组)由长长的一串遗传密码组成,这些遗传密码以DNA(脱氧核糖核酸)的形式存在,DNA是编码生命的分子,被包装成染色体。人类有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。染色体包含基因,这些基因是遗传密码的可定位区域,编码一个可遗传信息单元,但是并非所有的遗传序列都属于基因区域,并且染色体的大部分由称为非编码DNA的中间遗传物质组成。每个染色单体有两条链,每条链由一个可以由字母A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)表示的核苷酸序列组成。这些核苷酸链以互补方式配对(A与T配对,C与G配对),这样每个链包含相同的信息,因此仅考虑其中一个链。
生信与临床
2020/08/06
8990
Nature | 基于四代家系参考的人类新生突变率
◉ 我们使用五种正交的下一代和长读长测序技术对四代系谱CEPH 1463中的28名成员进行了测序:对于G2至G4代,采用HiFi测序、Illumina和Element测序技术对其外周血进行了分析;而对于G1至G3代,则利用可用的永生化淋巴细胞系生成了UL-ONT和Strand-seq数据。该系谱数据集已被扩展,纳入了第四代以及G3代的配偶(编号为200080和200100)。◉ 该研究采用了多种先进的基因组测序平台,确保在不同世代之间获得全面且高精度的遗传信息,从而增强了对遗传变异传递模式的理解。
生信菜鸟团
2025/07/12
1020
Nature | 基于四代家系参考的人类新生突变率
读书笔记 | 第 03 章 基因组图谱绘制 | 《Genome 5》
在本章中,我们将研究构建基因组图谱的各种方法。基因组图谱就像任何其他类型的图谱一样,显示有趣特征和其他重要标志的位置。在基因组图谱中,这些特征和标志是基因和其他独特的 DNA 序列。尽管可以使用多种技术来绘制基因和其他 DNA 标志的图谱,但惯例是将基因组图谱绘制看作包含两种互补方法:
生信菜鸟团
2025/07/12
920
读书笔记 | 第 03 章 基因组图谱绘制 | 《Genome 5》
全基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR
ANNOVAR是由王凯老师编写的一款用于SNP等变异位点注释的软件 (2),在注释软件(Annovar, SnpEff, VEP-Variant Effect Predictor)中相对引用较高。ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。 给定一个包含染色体,起点,终点,参考核苷酸与检测核苷酸序列, ANNOVAR可以进行如下的功能注释:
三代测序说
2023/12/06
1.4K0
全基因组 -  人类基因组变异分析 (PacBio)(6)-- ANNOVAR
10X单细胞空间数据分析之SNP检测篇
Cellsnp-lite是在C/ c++中实现的,并执行每个细胞基因分型,supporting both with (mode 1) and without (mode 2) given SNPs。在后一种情况下,杂合snp将被自动检测。Cellsnp-lite适用于基于液滴的(例如10XGenomics数据)和well-based的平台(例如SMART-seq2数据)。
追风少年i
2023/04/29
9400
10X单细胞空间数据分析之SNP检测篇
使用XP-CLR检测基因组中的选择信号
检测基因组选择信号的方法有很多种,其中 XP-CLR 方法是常用的一种。XP-CLR 是陈华老师、Nick Patterson 和 David Reich 在 2010 年发表的方法,全称叫 the cross-population composite likelihood ratio test(跨群体复合似然比检验),是一种是基于选择扫荡(selective sweeep)的似然方法。
实验盒
2021/09/22
3K0
使用XP-CLR检测基因组中的选择信号
读书笔记 | 癌症计算系统生物学 | 第 03 章 实验性高通量癌症研究技术
第 2 章 描述了当正常细胞转化为癌细胞时,在不同分子水平上发生的一系列失调现象。突变(mutations)的逐步累积以及在肿瘤进展(tumour progression)过程中发生的事件会在以下各个层次上扰乱细胞的正常行为(参见图 3.1):
生信菜鸟团
2024/11/23
1970
读书笔记 | 癌症计算系统生物学 | 第 03 章 实验性高通量癌症研究技术
高通量测序常见名词解释
高通量测序平台产生的序列叫做reads,每一条由A,G,T,C组成的序列都叫做一条read。
生信交流平台
2022/09/21
9710
基因组研究和变异检测领域的重要工具—GATK初识
Genome Analysis Toolkit (GATK) 是一套由Broad Institute开发的用于基因组分析的软件工具。其主要用于处理高通量测序数据,特别是从Illumina测序平台得到的数据。GATK的主要功能包括针对单核苷酸多态性(SNPs)和小型插入删除(indels)的变异检测,质量控制,以及数据处理和分析。
生信菜鸟团
2024/01/06
1.2K0
基因组研究和变异检测领域的重要工具—GATK初识
maftools癌症体细胞变异(突变)分析工具学习
Maftools 是一个专门用于分析和可视化突变数据的 R 包。全名为 "Mutation Annotation Format Tools",它主要处理 MAF(Mutation Annotation Format)文件,这种文件格式广泛用于存储和共享癌症基因组中的突变数据。 Maftools 的主要功能包括:
凑齐六个字吧
2024/09/02
4060
maftools癌症体细胞变异(突变)分析工具学习
去除比对偏差 (remove mapping bias)
在做等位基因(allele)的研究中,其中一个重要的步骤就是去除比对偏差。 众所周知,人是二倍体生物,在染色体同样位置会有一对allele,一般情况下是纯合子(homozygous)状态;有时候其中一个allele发生变异(可以理解为一个SNP,寡核苷酸多态性),会变成杂合子(heterozygous)状态。
生信编程日常
2020/04/01
7490
去除比对偏差 (remove mapping bias)
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
4.2K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
如何在Windows电脑上使用LDSC软件(3) ------ LDSC实操与结果解读
前两期的内容带大家学习了如何在windows系统上安装Linux子系统以及LDSC的安装,今天我将带大家正式开展LDSC分析并解读相关结果。
生信与临床
2022/08/21
4.3K4
如何在Windows电脑上使用LDSC软件(3) ------ LDSC实操与结果解读
ADNI数据和样例
ADNI临床数据集: 由各个学科的临床信息组成,包括招募、人口统计特征、体格检查和认知评估数据 所收集的临床数据:
范中豪
2019/09/10
1.6K0
ADNI数据和样例
TCGA数据库:SNP数据的下载整理及其可视化
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
DoubleHelix
2020/05/26
8.8K1
推荐阅读
相关推荐
plink软件cookbook
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档