首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

dbSNP数据库简介

dbSNP是NCBI中专门用于存储物种SNP位点信息的数据库,网址如下 http://www.bioinfo.org.cn/relative/dbSNP%20Home%20Page.htm dbsnp有很多的版本...在该数据库中,需要理解以下两种ID NCBI Assay ID(ss) Reference SNP ID(rs) 对于每一个提交到dbSNP数据库的SNP位点, 首先会赋予一个唯一的ss ID。...对于每个rsID, 数据库汇总会记录对应的物种,基因型,等位基因频率,位置,文献等相关信息。...rs=1425711270 首先会给出一个综合信息,RefSNP中给出了的物种,dbSNP数据库的版本号等信息;Allele中给出了突变类型,碱基变化情况等信息;HGVS Names给出了根据HGVS命名规则指定的突变信息...们经常会使用dbsnp数据库中的VCF文件,以human 为例,下载地址为 ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/ ?

6.2K41

【直播】我的基因组54:把我的variation跟dbSNP数据库相比较

对INDEL的统计结果如下: grep INDEL autochr.highQuali.dbsnp.vcf |perl -alne '{@tmp=split/:/,$F[9];print $tmp[0]...也下载了dbSNP(b147_GRCh37p13版本),并且把我的VCF文件注释到了dbSNP,就可以进行基本的统计啦! 有了这些信息,就可以进行下面的统计了!...带rs标记的说明这个位点在dbSNP里面有记录,带有KGPhase3的说明在千人基因组计划里面有记录!在千人基因组计划里面发现了的snp一定在dbSNP里面有记录!...3种颜色,NO代表着dbSNP(b147_GRCh37p13版本)和千人基因组计划(20130502版本)都没有记载,是我本人的全新突变!!而NOrs代表着在dbSNP有,在千人里面没有。...而KGPhase3rs代表着在dbSNP和千人都有啦!

1.2K80
您找到你想要的搜索结果了吗?
是的
没有找到

【直播】我的基因组 36:这些可能是somatic突变的位点究竟是什么?

前面我们讲到了可以把突变文件注释到dbsnp数据库,而dbsnp数据库信息非常丰富,比如我们可以看 ##INFO=<ID=SAO,Number=1,Type=Integer,Description="Variant...下面我用脚本统计一下SAO的信息: cat realign.<em>dbsnp</em>.vcf |perl -alne '{/(SAO=\d)/;print $1}' |sort |uniq -c ?...我有近76万的位点没有在<em>dbsnp</em><em>数据库</em>里面,剩余的在<em>dbsnp</em>里面的,有1610个可以肯定是germline的mutation,还有142个是可能是somaticmutation,这些位点很可怕,somatic...我写脚本看了看这142个可能是somatic突变的位点所在的基因: cat realign.<em>dbsnp</em>.vcf |perl -alne '{print if /SAO=3/;}' ><em>dbsnp</em>_both_germ_somatic.vcf...cat <em>dbsnp</em>_both_germ_somatic.vcf |grep GENEINFO |perl -alne '{/(GENEINFO=.*?)

879160

【直播】我的基因组65:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多: cat...autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)...当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。...可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。...可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。 再看看基因突变个数的个数的变化: ? 之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

1.1K90

【直播】我的基因组68:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多: cat...autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)...当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。...可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。...可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。 再看看基因突变个数的个数的变化: ? 之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

88770

【直播】我的基因组63:wegene芯片跟二代测序的简单比较

然后看看我自己的vcf: 好吧,很明显,两个文件都是有dbSNP的,所以需要用到一个公共数据如下: ~/annotation/variation/human/dbSNP/dbsnp.pos (希望这么一点点的数据不会暴露我的隐私...,唉,为了这个直播,我也是贡献了不少了) 简单的写一个脚本,就好啦~ ln ~/data/project/myGenome/fastq/variation/autochr.highQuali.dbsnp.vcf...cat jmzeng_wegene.dbsnp.txt ~/annotation/variation/human/dbSNP/dbsnp.pos |perl -lane '{if(/^rs/){$h{...结果如下: 中间文件: 首先过滤掉wegene数据里面的头文件还有那些没有被dbSNP数据库收录的位点,还有没有被检测到的位点,还有X,Y,MT染色体探针。这样过滤了3万多位点。...然后根据dbSNP数据库文件把wegene的芯片基因型转换成wild,het,hom,因为我的vcf文件里面没有记录的就是wild,记录0/1的就是het,记录1/1的就是hom的mutation 很明显可以看到

1.2K80

NGS基因测序(panel)报告解读数据库汇总

作者,Evil Genius今天我们来梳理一下肿瘤基因报告解读常见的数据库,大家有机会可以自己查询并且解读,涉及到的数据库dbSNP数据库 、gnomAD数据库、ExAC数据库、1000 Genomes...人群数据库dbSNP数据库(https://www.ncbi.nlm.nih.gov/snp/)dbSNP是由NCBI提供的,在这个数据库,可以查看是否有人已经发现了你的变体。...dbSNP不仅包含SNPs(单核苷酸多态性),还有很多其他的变异,如短删除、插入和多核苷酸多态性。...如上图所示,dbSNP提供了关于变异体的大量信息,将显示任何可用的rs。...以BRCA2为例,dbSNP不仅给出了一些基本信息,例如命名法、有机体或分子类型,而且它还列出了PubMed中关于该变体的引用,并提供了指向所有引用文章的直接链接。

42710

【直播】我的基因组64:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。...它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。...首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下: ? 数据库下载方式见论坛,我用的是shell命令: ?...http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可) 打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的...,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。

2.1K50

使用SnpSift把vcf文件的变异位点注释到clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单...我在多年前的直播我的基因组讲过很多了: 首先熟悉 clinvar 数据库 ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。...它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。...Integration Example 3: Non-Coding variants Example 4: Sequencing data analysis Example 5: Filter variants (dbSnp...,比如dbSNP、exac、gnomad注释比例会高很多。

1.6K10

手把手学习TCGA数据库:SNP突变分析第二期

各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。...dbSNP dbSNP 全称为The Single Nucleotide Polymorphism Database,即单核苷酸多态性数据库,意思是“DNA序列中的单一碱基对(base pair)变异...dbSNP 网址:https://www.ncbi.nlm.nih.gov/snp/ ?...在第二节我们讲过dbsnp数据库中的snp名字,主要是以rs开头的,这里以rs9923231为例,我们在NCBI的SNP网站上可以轻松查到(https://www.ncbi.nlm.nih.gov/snp...红色框框即是我们的突变位点所在的位置 HGVS 下面我们来学习一下另外一个数据库HGVS的使用。

3.6K33

【直播】我的基因组59:把我的数据伪装成23andme或wegene的芯片数据

(当然,我其实拿到了新版的数据,但是由于隐私问题,不便传播) 转换很简单: 第一步,把芯片设计的rsID全部拿出来 第二步,根据rsID从我的VCF文件中挑取位点,并赋予纯合杂合基因型 第三步,去dbSNP...数据库文件里面映射我VCF文件没有记录的点为野生型 (perl -alne '{print if /^rs/}' dm_23andme_v3_110219.txt |cut -f 1 >23andme.rsID.listcat.../variation/autochr.highQuali.dbsnp.vcf 23andme.rsID.list |perl -alne '{if($F[2]=~/^rs/){if(/1\/1/){$...0]\t$F[1]\t$gt" } print "$_\t$h{$_}" if /^rs/}' >my_23andme.1.txtzcat ~/annotation/variation/human/dbSNP...zcat ~/annotation/variation/human/dbSNP/All_20160601.vcf.gz |perl -alne 'BEGIN{ open FH,"dm_23andme_v3

3.8K71

【直播】我的基因组67:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。...它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。...首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下: ? 数据库下载方式见论坛,我用的是shell命令: ?...http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可) 打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的...,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。

1.1K100

lncRNASNP:SNP位点对lncNA结构和lncRNA-miRNA影响的数据库

与miRNA结合的影响 除此之外,还提供了lncRNA,SNP在TCGA数据库中的相关信息,比如lncRNA在各种肿瘤中的表达谱,SNP位点在各种疾病中的突变情况。...该数据库的网址如下 http://bioinfo.life.hust.edu.cn/lncRNASNP2 对于一个lncRNA, 包含了以下几种信息 1. 基本信息 ? 2....位于lncRNA上的SNP位点 包含以下3种来源的SNP位点 dbsnp TCGA Cosmic 以dbsnp数据库为例,结果示意如下 ?...3. lncRNA相关疾病 包含lncDisease数据库中提供的实验证据支持的相关疾病和使用TAM软件预测的信息,示意如下 ?...5. lncRNA在TCGA数据库中的表达谱 采用柱状图的形式展示在不同肿瘤中的表达谱数据,示意如下 ?

78320
领券