--------------
科研路上狂奔的盆友
你是否也有过下面这些烦恼:
GEO上下了数据想自己玩玩
却不知道这些基因ID是哪个数据库的
如何识别并且转换成基因官方名称?
公司给了测序/芯片结果,
只提供了一种基因ID(比如ENSEMBL)
但是没有自己心仪的ID
(比如Refseq的NM号)
如何转换?
做完KEGG通路富集分析
某通路结果里只有基因的KEGG ID
如何转换成基因官方名称?
如果有过这样的疑问或者感jio
可以试试下面推荐的三个在线工具
(1) bioDBnet
https://biodbnet-abcc.ncifcrf.gov/db/db2db.php
来自NCI的高级货
界面简洁数据库全面
首先看最基本的ID批量转换功能
此处以从GEO上随机下的一个芯片数据为例
一般下载*_series_matrix.txt 文件
用作后续的分析
此处用 GSE54077_series_matrix.txt
Excel打开后
主要获取两个信息
芯片的公司(此处为affi的)
以及下面列出的有表达量的ID
(即affi的ID)
这是在线玩GEO经常面临的场景
此时有的科研er甚至就放弃了
甚至因此爱不上科研!
因为没看到基因名字让我怎么分析
此时别慌
把ID_REF里的ID贴入上述工具
进行优雅的转换!
如下图
左边INPUT选affi ID
右边OUTPUT选gene symbol
ID list贴入上述excel里的ID
记住不要选remove duplicate input
不然万一有重复的ID
再把基因名贴进excel时会错行哦
配置之后点提交
看到结果
再贴回上面的geo下载的excel
就可以愉快的进行分析了
此网站的数据库还是比较全面
部分如下
如图
不仅包含几大芯片公司的ID数据库
也包含各种主流分子生物学数据库
上面是已经知道ID是affi芯片ID的情况
如果只有一堆ID
并不知道是来自什么工具或者数据库的时候
(比如师兄给的不知道从哪里弄来的
表达数据)
可以试试网站的ID识别功能
如下图
输入几个自己拿不准来源的ID
自动识别后转为gene symbol
结果如下
如果一批ID确定统一来源的话
识别率是极高的
(2)Hyperlink Management System
http://biodb.jp
这个网站界面如下
ID converter和ID resolver
分别对应了第一个工具的转换和识别功能
但是缺少了商业公司的芯片ID数据库
举例如下
Search后得到
可以download下载到本地
基因ID识别功能也比较强大
比如
Search后得到
此网站一个更强大功能是
可以下载两个数据库对应关系的完整数据
对于掌握高级生信技巧的盆友
更有用
比如下载上述两项的完整对应关系
下载后是txt格式
可以用于构建自己的基因ID转换
本地数据库哦
涵盖的数据库如下
(3) DAVID
https://david.ncifcrf.gov/
conversion.jsp
Hi老朋友DAVID
以前介绍过用它进行PATHWAY和GO分析
它其实还有个功能就是基因ID转换
缺点是数据库不是实时更新
但日常也基本够用啦
依然以上面的GEO数据为例子
Select identifier里选affi
提交后点击右面的conversion
转换为official gene symbol
结果很清新大气还有基因全名
可以直接下载为excel
DAVID支持的数据库不多如下
注意最下面的Not Sure哦
就是隐藏的基因ID识别功能啦
(别外传哦)
选not sure
再填入上面的affi ID戏弄它一下
得到如下的结果
这货认出了affi ID
还问要不要继续转成基因名字
还是很智能的
要不
今天就到这里吧
(这种枯燥文,你竟然坚持到现在!)
2019来了
会是爱上科研的一年吗?
----------完结----------
长按上面二维码关注
看攻略,看科研动态
来bio-bio-bio.com
对应论文一键秒下
领取专属 10元无门槛券
私享最新 技术干货