前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手学习TCGA数据库:SNP突变分析第一期

手把手学习TCGA数据库:SNP突变分析第一期

作者头像
百味科研芝士
发布2019-06-17 11:33:16
8.2K0
发布2019-06-17 11:33:16
举报
文章被收录于专栏:百味科研芝士

SNP(single nucleotide polymorphism),单核苷酸多态性,在基因组上由单个核苷酸变异形成的遗传标记,一般指变异频率大于1%的单核苷酸变异。

用英文的描述方法是这样的“If more than 1% of a population does not carry the same nucleotide at a specific position in the DNA sequence, then this variation can be classified as a SNP.”

值得注意的一个词是“population”同英文文章中对样本表述的“array”,指的是在一大群个体中出现大于1%个体中基因组DNA上某个特定位点碱基较参考基因组发生变化,则认为是一个SNP。在人类基因组中大概每1000个碱基就有一个SNP, 人类基因组上的SNP 总量大概是3 ×10^6 个。因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。

SNP发生的类型

SNP发生包括转换、颠换、插入和缺失,理论上每个位点都可以有4种形式的变异,但是实际上发生的只有转换和颠换两种,据说发生转换和颠换频率是2:1。如果你注意到了,你会发现在发生的转换中总是A突变成G,C突变成T,而且即使是转换,C>T的概率也要大于A>G的概率,这就是为什么研究的SNP为啥会经常是C>T或者A>G了。

补充一下:AT结合与CG结合中结合键是不同的:CG之间是三键结合,AT之间是双键结合,因此CG的结合力要比AT强,也就是说需要更高的温度,才能使得CG解链,这个温度相对应的关键参数就是Tm值,也就是解链一半时候的温度。

转换

[一种能量形式变成另外一种能量形式],即嘌呤变嘌呤或者嘧啶变嘧啶,主要发生在CG序列,由于CG(可以联想一下研究DNA甲基化常谈到的CpG岛)中的C碱基常发生甲基化(mC),可自发脱氨形成胸腺嘧啶(T),即常常发生的转化是C to T。

颠换

异型碱基的置换,一个嘌呤被另外一个嘧啶替换或一个嘧啶被另外一个嘌呤置换,即嘌呤变嘧啶,或者嘧啶变嘌呤。(主要为A变T/C,G变T或C)

SNP发生的位置

SNP可以发生基因组的任何位置,基因编码区/基因非编码区/基因间区等,具体机制其实说也说不清,因为大多数SNP不是在外显子上的。基本上都是进化过程中的一些基因的突变,所以一般都不会是特别关键的位置。当然也不能说完全没有功能,有的会导致可变剪接,或者有的会导致表观上的变化。所以SNP的研究面会比较广,所以会有GWAS这样的项目。关系如下:

发生在编码区

先补充一个概念:密码子简并性(氨基酸对应三联密码子),所以发生SNP不一定会引起编码氨基酸的改变,这就引入了Synonymous SNP(同义突变,不引起任何变化) 和Non-Synonymous SNP(非同义突变,大家关注的焦点)概念。对于不引起编码氨基酸变化的即为同义突变,引起氨基酸变化的则为非同义突变。

非同义突变又可分为错义突变和无义突变

01

错义突变

编码的某种氨基酸的密码子变成另一种氨基酸密码子,从而多肽链的氨基酸种类和序列发生改变,错义突变通常会使多肽链丧失原有功能。

02

无义突变

编码某一氨基酸的密码子变成UAA、UGA或UAG(终止密码子),导致多肽链翻译的中止,从而形成一条不完整的多肽链。

发生在基因非编码区或基因间区

可能会影响转录因子与DNA结合、影响非编码RNA序列、影响基因的剪接、mRNA的降解等。

SNP的命名

SNP的命名是很混乱的,你会看到RS1800947或者NG_000004.3以及CYP3A5*3,看到这大家是不是慌了?这都是什么鬼?

其实不同的组织机构命名不一样,并且坚持自己的命名方法。关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。具体表现在以下几种形式:

01

RS命名法

RS命名法也被称为GenBank官方的refSNP ID单核苷酸多态性命名法,其是相对比较完善的命名体系,命名方法是rs+6/7位阿拉伯数字,包括前后序列,位置信息,分布频率等。如果已知一个SNP的refSNP ID,那么就可以在GenBank的SNP数据库中搜索到相关的信息和在基因组中的位置了。

网址:http://www.ncbi.nlm.nih.gov/snp/

譬如我搜索rs776746,你会发现CYP3A5 、ZSCAN25和RS776746是一个东西。

02

突变信息之间加上位置信息

主要有三种方式

突变信息之间+cDNA的位置,如C188T; 突变信息之间加上DNA的位置,如A2546G; 突变氨基酸信息之间加上氨基酸位置,如Glu145Lys.

03

按发现顺序或频率顺序拟定的惯用名称:

用*表示的,如CYP2D6*10,CYP2C9*3等。

前面加个m,表示突变的,如cyp2c19m2等,

还有一些也可以在文献中见到,如 CYP2E1的c1>c2的突变等等。其实这就是一种非常不正规的用HGVS Names标注SNP位置的方法,很明显,由于缺少引用核酸序列的接受号,因此读者无法从这样的表示在GenBank中查到对应的信息。

04

HGVS命名法

HGVS是Human Genome Variation Society (人类基因组变异协会) 的简称,是一个非政府的民间学术组织,其官方网站的网址:http://www.hgvs.org/。

HGVS命名SNP法的规则是标出引用的核酸序列号(Reference Sequence,RefSeq)和SNP在该核酸序列中的位置,例如:NG_000004.3:g.247167G>A,其中红色的部分是核酸序列接受号,绿色的部分是该单核苷酸多态性位点在该核酸序列中的位置,G>A表示原始碱基是G,突变碱基是A。这样的命名方法有利于找出所在基因序列中的位置。

OK,今天就先和大家分享到这,下期我们继续分享两个数据库的使用。

—END—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档