功能注释最基本最基本最基本的生物信息分析
当你拼接完一个基因组之后
想知道预测出来的几万条基因的功能
就需要功能注释
同样,拼接完转录组之后
也需要功能注释
你想做富集分析
得先知道每条基因的功能
没有?对不起,先去做功能注释
我把广义的功能注释分成两步
同源注释和功能分类
同源注释
同源注释是将要研究的序列
与已知的蛋白数据库比对
将数据库里同源基因的功能注释为该序列的功能
第一种方法是基于序列相似性
常用的软件是 Blast
常用的数据库是 Nr 或者 Uniprot
基于序列相似性的方法存在一个问题
它假设序列上的每一个碱基都是相同重要的
但事实并非如此
比如一些抗性基因
只要保守结构域还在
其他区域即使再残缺
也能身残志坚,行驶功能
所以就有了第二种基于保守结构域的注释方法
常用 HMMER 软件 + Pfam 数据库
或者 Interpro 数据库搭配自家的 Interproscan 软件
功能分类
只知道了一条序列和数据库里那一条序列最相似
这还不够
我们通常还想知道
它属于哪一个基因家族,比如 COG、KOG 家族分类
它属于哪一个Pathway,常用的是 KEGG 数据库
它在细胞的什么位置起作用,这就是 GO 分类
这一步的做法比较简单
通常 Nr、Uniprot、Pfam、Interpro 这些数据库中的蛋白的 ID
都与 GO、KEGG、COG、KOG 数据库是对应的
只需要做一个 id mapping 就可以
DIAMOND
功能注释的第一个问题是
慢
想想一下,你要对3万条蛋白进行功能注释
需要和数据库里成百上千万条序列进行 blast 比对
着大概需要半个月
这个问题在 2015 年被解决了
一款快速的 Blast 替代软件发表在了 Nature methods
半个月的功能注释几个小时就可以搞定
他就是 DIAMOND
Blast2GO
功能注释要用到多款软件 多个步骤
这事一步步做起来并不容易
需要对各个数据库充分了解
还得有一定编程基础
于是出现了第一款傻瓜式的功能注释流程
同源注释、功能分类统统搞定
它就是 Blast2GO
但是在服务器上部署 Blast2GO 及其复杂
不懂 MySQL 的话,你就是搞不定
Blast2GO 还推出了专业版
Blast比对等工作可以在云端完成
唯一的要求就是充值
1600欧你还别嫌贵
这只是一年的价格
还只能在一台电脑上用
伤感 够买 10 年的基因课会员了
终极方案 eggnog-mapper
终于,有人看不下去了
这就是开发 eggnog 数据库的大神们
eggnog 可以理解成一个基因家族数据库
它收集了 2000 多个物种的蛋白序列
对它们进行家族的分类
相当于蛋白序列的家谱
任何一个蛋白序列 你就可以找到它在其他物种中的兄弟姐妹(同源序列)
eggnog-mapper 软件可以将你关心的序列
比对到 eggnog 数据库 进行同源注释、功能分类、一气呵成
可以说是功能注释的终极方案
Blast2GO,就问你慌不慌
使用
eggnog-mapper 有网页版和本地版
网页版以前速度很快
现在用的人多了,越来越慢了
所以 好东西不要随便告诉别人
本地版的意思就是部署到自己的服务器上使用
唯一的问题是数据库太大,下载起来比较慢
基因课的服务器上已经部署好了
如果你是基因课的学员或者租用了基因课的服务器
就可以直接使用
使用方法先参考官方文档
1个月内,我们也会推出操作视频,欢迎关注
领取专属 10元无门槛券
私享最新 技术干货