Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用 eggnog-mapper 进行功能注释

用 eggnog-mapper 进行功能注释

作者头像
生信菜鸟团
发布于 2020-08-28 02:36:20
发布于 2020-08-28 02:36:20
4.6K00
代码可运行
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
运行总次数:0
代码可运行

eggnog-mapper 是一种用于对未知序列进行快速功能注释的工具。它使用 eggNOG 数据库中预先计算好的直系同源基因组和系统发育树,根据其进化关系推断他们的功能信息。eggnog-mapper 一般用于注释新的基因组,转录组亦或是宏基因组数据。

使用直系同源预测功能注释的方法比传统的序列相似性搜索(即 BLAST 搜索)具有更高的精度,因为它会避免从旁系同源进行注释。

eggnog-mapper 的Github 地址:https://github.com/eggnogdb/eggnog-mapper

eggnog-mapper 的网页界面版本请访问:http://eggnog-mapper.embl.de

Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Mol Biol Evol (2017). https://doi.org/10.1093/molbev/msx148

eggNOG-mapper v2

•注释数据库已更新至 eggNOG v5.0。包括 5090 个代表性基因组(4445 个细菌,168 个古细菌和 477 个真核生物)以及 2502 个病毒。

eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Res (2019). https://doi.org/10.1093/nar/gky1085

•在该版本中 HMMer 搜索模式已被弃用。因为在测试中,DIAMOND 模式运行效率更高,并可获得相似甚至更好的结果。•更新了功能注释数据(例如 KEGG,GeneOntology)•输出文件中新添加的列:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1. query_name2. seed eggNOG ortholog3. seed ortholog evalue4. seed ortholog score5. Predicted taxonomic group6. Predicted protein name7. Gene Ontology terms 8. EC number9. KEGG_ko10. KEGG_Pathway11. KEGG_Module12. KEGG_Reaction13. KEGG_rclass14. BRITE15. KEGG_TC16. CAZy 17. BiGG Reaction18. tax_scope: eggNOG taxonomic level used for annotation19. eggNOG OGs 20. bestOG (deprecated, use smallest from eggnog OGs)21. COG Functional Category22. eggNOG free text description

软件安装

•需要 Python 2.7 环境和 BioPython 包(注:v2.0.1[1] 开始的版本已基于 Python 3 重写)•需要至少 50GB 硬盘空间

软件下载

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/jhcepas/eggnog-mapper.git

下载数据库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python download_eggnog_data.py

该脚本会自动下载并解压数据库至脚本路径的 ./data 目录下。

基本使用方法

只需输入包含需要查询序列的 fasta 文件即可进行注释:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python emapper.py -i test/p53.fa --output p53_maNOG -m diamond

注释数据量较大的基因组和宏基因组数据集

eggnog-mapper 的工作流程分为两个阶段: 1) 寻找直系同源序列; 2) 扩展注释。第一阶段主要消耗 CPU 算力,而第二阶段则主要考验磁盘读写能力。因此,我们可以根据这两个步骤的特性进行优化。

第一阶段: 同源性搜索

1) 对于较大的 fasta 文件,我们可以先将其拆分,方便我们进行并行运算,充分利用集群算力。这里直接使用 Linux 自带的 split 命令进行拆分。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
split -l 2000000 -a 3 -d input_file.faa input_file.chunk_

-l 选项根据文件的行数来分割文件•-a 指定输出文件的后缀长度•-d 使用数字作为后缀

2) 使用 diamond 模式进行同源性搜索。这一步我们需要使用 --no_annot 参数暂时跳过注释阶段。用下面的代码批量生成集群运行命令,然后进行批量运行。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 批量生成运行命令,方便提交至集群for f in *.chunk_*; doecho ./emapper.py -m diamond --no_annot --no_file_comments --cpu 16 -i $f -o $f; done

第二阶段: 功能注释

在注释阶段我们需要检索 data/eggnog.db数据库。该文件是一个 sqlite3 数据库,因此我们建议将该文件放在速度最快的磁盘中。例如,存储在 SSD 磁盘中,如果内存足够大也可以直接放在 /dev/shm (基于内存的文件系统)下。

3) 合并上一步生成的 chunk_*.emapper.seed_orthologs 文件。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cat *.chunk_*.emapper.seed_orthologs > input_file.emapper.seed_orthologs

4) 进行注释。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
emapper.py --annotate_hits_table input.emapper.seed_orthologs --no_file_comments -o output_file --cpu 10

一般来说,如果把数据库放在 /dev/shm下,调用 10 核进行运算,每秒可以注释 300-400 个蛋白。

引用链接

[1] https://github.com/eggnogdb/eggnog-mapper/tags [2] https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基因功能注释
背景 预测得到一个物种的全部基因之后,接下来自然而然的问题就出现了。这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者
生信喵实验柴
2022/10/25
3.1K0
基因功能注释
eggnog-mapper软件的安装配置
http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog.db.gz http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog_proteins.dmnd.gz
用户7010445
2020/04/01
3.4K0
使用eggnog-mapper进行功能注释
对于许多做非模式生物的同学来说,没有现成的功能注释可用是非常难受的一件事。而blast2go虽然可以一步到位帮你完成功能注释,但它是收费的。这时,我们可以使用eggnog-mapper进行功能注释。
生信小王子
2020/08/10
1.8K0
宏基因组基因功能注释
前言 此部分内容,均为《基因学苑》公众号付费资源的学习笔记。 一、eggnog-mapper简介 拼接完的宏基因组序列,进行基因预测,去冗余,最终得到宏基因组测序的基因组。那么这些基因都
生信喵实验柴
2023/02/24
1.8K0
宏基因组基因功能注释
ggpicrust2:PICRUSt2预测功能分析和可视化的R包
最近看到一个发表在Bioinformatics期刊的R包ggpicrust2,可以对picrust2结果进行可视化。 文章网址:https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btad470/7234609
Listenlii-生物信息知识分享
2023/09/06
3.4K0
ggpicrust2:PICRUSt2预测功能分析和可视化的R包
使用clusterProfiler包利用eggnog-mapper软件注释结果做GO和KEGG富集分析
这里我使用 Schizosaccharomyces pombe 这个物种的蛋白数据做例子,搜了一下拉丁名好像是裂殖酵母。
用户7010445
2020/04/01
11.4K1
宏基因组功能注释(以COG为例)
Contigs/Scaffolds序列经基因预测、ORF开放阅读框识别(Open Reading fr ame)和蛋白翻译之后,就可以进行功能注释分析了。我们将基因/蛋白序列在特定的数据库中搜索比对,从而完成功能注释分析。常用的功能数据库主要包括KEGG、EggNOG、GO、COG和CAZy等。
生信菜鸟团
2021/04/29
3.6K0
宏基因组功能注释(以COG为例)
MER:S循环功能基因数据库
SCycDB数据库包含细菌/古细菌52个门2684个属的207个基因家族,共585,055条代表序列,并包含20,761个同源序列。
Listenlii-生物信息知识分享
2021/01/20
9990
MER:S循环功能基因数据库
eggnong数据库本地版注释步骤
❝本节来介绍如何使用「eggnog-mapper」软件来对基因做功能注释,,由于需要注释的基因有10万条,在线版单次只支持5000条序列因此我们使用本地版来进行注释❞ 软件安装 conda install -c bioconda eggnog-mapper 数据库下载 目前版本已经更新到5.0.2下载后解压缩即可 axel -an50 http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz axel -an50 http://eggnog
R语言数据分析指南
2022/09/21
7680
微生物组分析 ·​ 进阶
数据分析是相同的,通过一个简单的课程理解其中的原理,就可以推而广之,延伸到其他类型的数据分析,如扩增子,转录组,单细胞分析等
生信宝典
2019/12/11
1.5K0
微生物组分析 ·​ 进阶
eggNOG:从COG延伸出来的同源蛋白数据库
直系同源蛋白的预测在系统发育,比较基因组学等多个领域都占用重要地位,COG数据库开创了同源蛋白数据库的先河,后续又不断有新的数据库涌现,而eggNOG就是目前使用最广泛的数据库之一。
生信修炼手册
2020/05/08
2.1K0
eggNOG:从COG延伸出来的同源蛋白数据库
BUSCO 评估
用于转录组和基因组组装质量进行评估的软件,前面介绍了quast,今天的是busco,对于动物植物较大的基因组拼接结果评估,这个软件很好用。
生信喵实验柴
2022/05/23
1.6K0
BUSCO 评估
基因功能分析——Gene functional analysis
KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是一个数据库资源,用于从分子水平的信息,了解生物系统(如细胞、生物体和生态系统)的高层次功能和效用。
uniXiaolin
2023/07/26
5350
人类微生物组计划 - 宏基因组/16S分析流程 bioBakery
bioBakery是NIH人类微生物组计划实施过程中开发的部分软件和使用教程的集合,主要由哈佛大学的Huttenhower实验室开发。提供了16S, 宏基因组,宏转录组分析的全部流程,并可以生成结果报告。
生信宝典
2018/10/25
4.4K0
人类微生物组计划 - 宏基因组/16S分析流程 bioBakery
RcisTarget转录因子分析学习
RcisTarget 是一个用于基因调控网络构建和转录因子分析的R包。它可以从一组基因中识别潜在的转录因子(Transcription Factors, TFs)调控网络,并通过 motif 分析 推测转录因子的作用机制。该包主要被应用于转录调控研究,特别是基因共表达网络或差异表达基因集的上游调控因素预测。
凑齐六个字吧
2024/12/04
3160
RcisTarget转录因子分析学习
2025 的 KEGG 数据库都更新了什么?
◉ KEGG 包含存储在四个类别中的十六个数据库的各种数据对象。◉ 每个对象(数据库条目)由 KEGG 标识符(kid)识别,如这里所定义。◉ 它有两种形式:一种简单的形式,由与数据集相关的前缀后跟一个五位数的数字组成(例如 map01310),◉ 或者一种组合的形式,由数据集名称和条目名称用冒号分隔(例如 hsa:116337)。
生信菜鸟团
2025/03/13
1860
2025 的 KEGG 数据库都更新了什么?
一个由KEGG官方推荐的基因功能注释标配工具
在基因组学研究中,我们常常面对这样的难题:测序得到的基因序列就像一本用未知文字书写的古籍,而KofamScan就是那把破译密码的钥匙。这个由京都大学团队开发的工具,能够将原始基因序列转化为KEGG数据库中的功能注释(K编号),帮助研究者理解基因在代谢通路、细胞功能中的角色。下面我们就一起来详细了解KofamSca!
简说基因
2025/03/03
1800
一个由KEGG官方推荐的基因功能注释标配工具
知道肠道菌种组成之后怎么做功能注释?
在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2019年11月1-3日,北京鼓楼推出《宏基因组分析》专题培训第六期,为大家提供一条走进生信大门的捷径、为同行提供一个宏基因组分析学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+再集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据。
生信宝典
2019/10/10
2.6K0
知道肠道菌种组成之后怎么做功能注释?
基因组注释服务-完美解决gff文件缺失的难题(火热进行中)
有了gff注释文件就可以愉快的开展各种组学的生信分析项目了,当然也可以愉快的进行数据库的挖掘从而降低同质化减少内卷。
R语言数据分析指南
2023/09/27
5531
基因组注释服务-完美解决gff文件缺失的难题(火热进行中)
GRSA富集:可视化天花板你值得拥有
最近我们介绍了好几种功能富集分析的包,这次又来了一个,个人比较喜欢的,里面可以绘制各种高分文章中出现的富集结果精美展示图,来看看~
生信菜鸟团
2025/01/07
2310
GRSA富集:可视化天花板你值得拥有
相关推荐
基因功能注释
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档