Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基因类型注释根据基因ID就好了

基因类型注释根据基因ID就好了

作者头像
生信技能树
发布于 2019-12-31 08:41:26
发布于 2019-12-31 08:41:26
1.7K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

生物信息学数据库种类繁多,其中基因ID是很多人比较困惑的,尤其是很多产品居然还不是基因ID的问题,比如表达芯片是探针,所以我策划了一系列ID转换教程,见文末!我的包里面有一个函数大家比较感兴趣,就是为什么可以根据基因ID拿到其染色体坐标呢?而且还可以得到其基因类型。

如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(AnnoProbe)
IDs <- c("DDX11L1", "MIR6859-1", "OR4G4P", "OR4F5")
ID_type = "SYMBOL"
annoGene(IDs, ID_type)
annoGene(IDs, ID_type,out_file ='tmp.html')
annoGene(IDs, ID_type,out_file ='tmp.csv')

你可以指定ID_type,目前只能是选择 "ENSEMBL" or "SYMBOL",然后这个函数就会为你进行ID转换及坐标,还有基因类型的注释。

需要使用下面的代码自行下载安装我们的AnnoProbe

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)

因为这个包里面并没有加入很多数据,所以理论上会比较容易安装,当然,不排除中国大陆少部分地方基本上连GitHub都无法访问。

我做了哪些事情

其实就是下载GENCODE数据库文件,然后格式化即可。我这里使用的是perl语言,实际上可能是使用R更好,保证这个开发 流程的统一。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# https://www.gencodegenes.org/human/ 
nohup wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.annotation.gtf.gz & 
# https://www.gencodegenes.org/mouse/
nohup wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M23/gencode.vM23.annotation.gtf.gz & 
# https://www.ensembl.org/Rattus_norvegicus/Info/Index
nohup wget ftp://ftp.ensembl.org/pub/release-98/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.98.chr.gtf.gz & 

zcat gencode.v32.annotation.gtf.gz |perl -alne  '{next unless  $F[1] eq "HAVANA";next unless $F[2] eq "gene";/gene_id \"(.*?)\.\d+.*?\"; gene_type \"(.*?)\"; gene_name \"(.*?)\"/;print "$3\t$2\t$1\t$F[0]\t$F[3]\t$F[4]"}'  > human_gencode.v32.txt
zcat gencode.vM23.annotation.gtf.gz |perl -alne  '{next unless  $F[1] eq "HAVANA";next unless $F[2] eq "gene";/gene_id \"(.*?)\.\d+.*?\"; gene_type \"(.*?)\"; gene_name \"(.*?)\"/;print "$3\t$2\t$1\t$F[0]\t$F[3]\t$F[4]"}'  > mouse_gencode.vM23.txt

zcat Rattus_norvegicus.Rnor_6.0.98.chr.gtf.gz |perl -alne  '{next unless $F[2] eq "gene";/gene_id \"(.*?)\";.*?gene_name \"(.*?)\";.*?gene_biotype \"(.*?)\";/;print "$2\t$3\t$1\t$F[0]\t$F[3]\t$F[4]"}'  > rat_ensembl_6.0.98.txt

得到的文件如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
53004 human_gencode.v32.txt
48961 mouse_gencode.vM23.txt
32623 rat_ensembl_6.0.98.txt

这些就加载到R包里面,有了这些数据源,就可以很轻松的进行基因ID转换或者注释了。

表达芯片探针ID转换大全

在2019年的尾巴,我推出3个R包,

  • 第一个是整合全部的bioconductor里面的芯片探针注释包。
  • 第二个是整合全部GPL的soft文件里面的芯片探针注释包。
  • 第三个是下载全部的GPL的soft文件里面的探针碱基序列比对后注释包。

配合着详细的介绍:

因为这些包暂时托管在GitHub平台,但是非常多的朋友访问GitHub困难,尤其是我打包了好几百个GPL平台的注释信息后, 我的GitHub包变得非常臃肿,大家下载安装困难,所以我重新写一个精简包。也在:芯片探针ID的基因注释以前很麻烦 和 :芯片探针序列的基因注释已经无需你自己亲自做了, 里面详细介绍了。最重要的是idmap函数,安装方法说到过:芯片探针序列的基因注释已经无需你自己亲自做了, 使用起来也非常简单:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(AnnoProbe)
ids=idmap('GPL570',type = 'soft')
head(ids)

仅仅是一句话,就拿到了这个平台的探针的注释信息。需要注意的是,这个函数的type参数,其实是有3个选择,这里我演示的是选择soft这个来源的基因注释信息。

并不是所有的平台都是有soft注释,也不是所有的平台都被我的这个工具囊括哦。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
10x单细胞表达矩阵你也敢用Excel打开
我实在是很难理解, 3500多个细胞已经是 3500多列的矩阵,作者怎么就敢使用Excel打开,不怕电脑奔溃吗?
生信技能树
2021/02/04
1.2K1
不只是人类!340+物种的转录组表达矩阵Ensembl ID转换为symbol
转录组数据,我们能拿到的表达矩阵通常是以Ensembl ID 为行名的,一长串,格式是ENS...。
用户11414625
2025/02/25
2240
不只是人类!340+物种的转录组表达矩阵Ensembl ID转换为symbol
第一个万能芯片探针ID注释平台R包
首先,我们说官网,肯定可以找到,不然这种芯片出来就没有意义了!然后,我们看看NCBI下载的,会比较大
生信技能树
2019/12/05
13.9K0
新GEO
1.Entrez gene ID:我们一般说的Gnen ID即Entrez gene ID,是用一串数字表示的(在NCBI里面用)
用户10758803
2024/03/10
3360
【资源分享】生物信息学编程实战
市面上唯一适合生物信息学从业者的教学视频 直接复制链接 https://ke.qq.com/course/285055 到浏览器即可打开购买 永不打折,但是会下架,请抓紧机会购买! 编程这个技能,随着
生信技能树
2018/06/07
4K0
芯片探针ID的基因注释以前很麻烦
而且学生特别的好学,已经懂得去搜索我们已有的1.3万篇教程,找到了芯片探针序列重新注释的流程,但是我昨天就说到过:芯片探针序列的基因注释已经无需你自己亲自做了, 肯定是学员没有追我们的公众号最新教程,不过这个不能怪他。这个是公众号的弊端,太多冗余信息让大家分心,与我们真正的知识分享初衷背道而驰了。
生信技能树
2019/12/23
2.4K0
芯片探针ID的基因注释以前很麻烦
为什么一个基因可以既是lncRNA又是protein_coding
这个 gencode.v36.annotation.gtf.gz 文件也就是不到50M,所以很快就下载完毕,然后使用下面的代码格式化:
生信技能树
2021/02/04
1.7K0
infercnv输入文件的制作
示例文件 gencode_downsampled.EXAMPLE_ONLY_DONT_REUSE.txt 里面是:
生信技能树jimmy
2020/03/27
1.9K0
驴的单细胞数据基因ID如何转换?
学习过我们《转录组测序分析专题》课程的人,肯定一眼就看出来了这个ID来自数据库:Ensembl数据库。
生信技能树
2024/12/27
1590
驴的单细胞数据基因ID如何转换?
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
考核题的文章里面是自己测了8个TNBC病人的转录组然后分析,这里借助TCGA数据库,所以可以复现。我这里想展现的主要是TCGA的数据下载和基因的ID转换,分类,的理解。
生信技能树
2019/09/24
4.1K0
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
没有什么基因芯片的探针是不能注释的
最近收到读者求助,说他感兴趣的表达量芯片数据集用到的的芯片是:[HT_HG-U133_Plus_PM] Affymetrix HT HG-U133+ PM Array Plate ,看起来跟我们授课的
生信技能树
2020/11/19
1.6K0
没有什么基因芯片的探针是不能注释的
使用bedtools根据染色体上的起止位置拿到基因symbol
bed格式文件至少包括前3列,分别是:染色体的名字、染色体上的起始位置、染色体上的终止位置。这一步无论用写字板、excel、R等进行处理都可以,文件的后缀名也不重要,因为强行将文件后缀改为bed时,在后面的Linux系统中进行bedtools处理时也会报错。所需的bed格式文件参见下图。
生信技能树
2020/06/11
14.1K0
生信编程8.ID转换
有一些五六年前的学生们都成长为了各个生物信息学相关公司的小领导,而且他们都有了自己的公众号,知乎号,也算是一番人物。最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的生信工程师,挺有意思的。让我想起来了早在生信技能树论坛创立之初我为了引流,而规划的200个生信工程师面试题。值得继续分享:
生信技能树
2021/03/24
2K0
生信编程8.ID转换
GPL平台的soft文件提供的注释信息到底准确吗
因为这些包暂时托管在GitHub平台,但是非常多的朋友访问GitHub困难,尤其是我打包了好几百个GPL平台的注释信息后, 我的GitHub包变得非常臃肿,大家下载安装困难,所以我重新写一个精简包。也在:芯片探针ID的基因注释以前很麻烦 和 :芯片探针序列的基因注释已经无需你自己亲自做了, 里面详细介绍了。
生信技能树
2019/12/23
6.3K0
GPL平台的soft文件提供的注释信息到底准确吗
使用中国区chatGPT解析gtf文件
值得注意的是,里面的 AnnoProbe包是可以根据不同物种的ENSEMBL信息去转为SYMBOL信息,实际上它这个转换是基于我对人类和小鼠的gtf文件的解析。
生信技能树
2023/09/04
5380
使用中国区chatGPT解析gtf文件
(16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集
这个我非常喜欢,目录如下: 用R获取芯片探针与基因的对应关系三部曲-bioconductor 用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系 gene的各种ID转换终结者-bioconductor系列包 现有的基因芯片种类不要太多了! 但是重要而且常用的芯片并不多! 一般分析芯片数据都需要把探针的ID切换成基因的ID,我一般喜欢用基因的entrez ID。 一般有三种方法可以得到芯片探针与gene的对应关系。 金标准当然是去基因芯片的厂商的官网直接去下载啦!!! 一种是直接用bioconduc
生信技能树
2018/03/08
6K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
5.3K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
芯片探针序列的基因注释已经无需你自己亲自做了
根据粉丝的反馈,是有两个问题的,首先是该R包在Windows平台是无法使用的,然后是大家下载参考基因组总是搞错!
生信技能树
2019/12/23
3.5K1
芯片探针序列的基因注释已经无需你自己亲自做了
基于bam文件做可变剪切的软件leafcutter和rMATS的比较
可变剪接(Alternative Splicing,AS)是指从一个mRNA前体中通过不同的剪接方式,对外显子和内含子进行组合,产生不同的mRNA剪接异构体的过程。高等真核生物中的可变剪接极大地拓展了基因功能的多样性,是调节基因表达和产生蛋白质组多样性的重要机制。
生信技能树
2019/11/18
4.9K0
如果你的单细胞表达量矩阵并不是传统基因名字为单位
发现是因为里面的基因名字问题, 目前人类基因的命名体系主要包括 Ensembl、Gene Symbol 和 RefSeq。这些体系都是用于标识和命名基因的,是可以互相转换的 :
生信技能树jimmy
2024/03/18
2900
如果你的单细胞表达量矩阵并不是传统基因名字为单位
推荐阅读
相关推荐
10x单细胞表达矩阵你也敢用Excel打开
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验