Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GraPhlAn宏基因组物种谱可视化

GraPhlAn宏基因组物种谱可视化

作者头像
SYSU星空
发布于 2022-05-05 05:39:31
发布于 2022-05-05 05:39:31
1.3K00
代码可运行
举报
运行总次数:0
代码可运行

宏基因组分析Pipeline

测序数据的解析:Fastq与FastQC

测序数据的质控:Trimmomatic!

测序数据的筛选:去除宿主序列

测序数据的组装:常用软件工具

免组装宏基因组群落分析

GraPhlAn宏基因组物种谱可视化

更新中……

Metaphlan2直接输出的结果文件及不同样本融合的物种谱(或者其他来源的相同格式的物种谱)可以用GraPhlan来可视化。GraPhlAn是一个环状分类和系统发育树可视化软件,主页地址及安装方法如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
主页:http://huttenhower.sph.harvard.edu/GraPhlAn
hg clone https://hg@bitbucket.org/nsegata/graphlan

里面包含两个脚本graphlan.py和graphlan_annotate.py,其中graphlan.py用于系统发育树可视化,使用方法如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
graphlan.py [Options] input_tree output_image
Options
--format:输出图像格式,默认为none,即根据output_image后缀来判断
--dpi:非矢量输出图像的分辨率
--size:输出图像的尺寸(可以理解为环状图直径,单位英寸),默认为7.0
--pad:图像最外围元素与边界的距离,单位为英寸
--external_legends:将图例输出到单独文件
--avoid_reordering:阻止系统发育树重排序,默认为重排序
input_tree:PhyloXML格式的系统发育树
output_image:输出图像文件名,可选后缀png、pdf、ps、eps、svg
graphlan_annotate.py用于将绘图元素添加到系统发育树中,其使用方法如下所示:
graphlan_annotate.py [--annot annotation_file] input_tree output_tree
--annot:添加额外信息用的annotation file
input_tree:输入的系统发育树,支持Newick、Nexus、PhyloXML格式
output_tree:输出的PhyloXML格式的系统发育树
另一个很重要的脚本是export2graphlan路径下的export2graphlan.py,用于产生annotation file,使用方法如下所示:
export2graphlan.py [-i LEFSE_INPUT] [-o LEFSE_OUTPUT] -t TREE -a ANNOTATION [--annotations ANNOTATIONS]
可选参数:
--annotations:列出哪个level被注释,多个level逗号隔开,例如1,2,3,其中17对应于界门纲目科属种
--external_annotations:列出哪个level用外部图例来注释,例如1,2,3,一般用于种属level,因为种属信息多,很可能图片上写不开
--background_levels:列出哪个level使用背景颜色突出,例如1,2,3
--background_clades:列出哪个树的分支使用背景颜色突出,例如"Bacteria.Actinobacteria,Bacteria.Bacteroidetes.Bacteroidia,Bacteria.Firmicutes.Clostridia.Clostridiales". 
--background_colors:用来突出的背景颜色,例如"#29cc36, (150; 100; 100), (280;80; 88)"
--title:图片的标题,例如--title "Title example"
--title_font_size:标题的尺寸默认为15
--def_clade_size:系统发育分支的默认尺寸,默认为10
--min_clade_size:筛选为biomarkers的系统发育分支最小尺寸,默认为20
--max_clade_size:筛选为biomarkers的系统发育分支最大尺寸,默认为200
--def_font_size:字体的默认大小,默认为10
--min_font_size:所使用的最小字号,默认为8
--max_font_size:所使用的最大字号,默认为12
--annotation_legend_font_size:注释图例的字体,默认为10
--abundance_threshold:用于注释的系统发育分支的最小丰度,默认为20.0
--most_abundant:如果只有-i, --lefse_input被提供,可以指定多少分支被突出,将按照相对丰度优先选取,默认为10
--least_biomarkers:如果只有-i, --lefse_input被提供,可以指定提取的biomarkers的最小数目,默认为3
--discard_otus:是否丢弃taxonmy中的OUT ID,默认为True也即不丢弃
--biomarkers2colors:指定biomarkers的颜色
输入参数(以下至少提供一项):
-i, --lefse_input:LEfSe的输入数据格式,可以是MetaPhlAn或HUMAnN的分析结果
-o, --lefse_output:LEfSe输出结果数据LEfSe基于lefse_input的分析结果
输出参数:
-t, --tree:输出tree的文件名
-a, --annotation:输出的注释文件信息
输入数据矩阵参数:
--sep:分隔符
--out_table :输出处理的数据矩阵到文件
--fname_row:包含feature名称的行,默认0,如没有feature名称则设置-1
--sname_row:包含样品名称的列,默认为0,如没有sample名称则设置-1
--metadata_rows:metadata所在的行
--skip_rows:忽略的行的列表,例如1,2
--sperc:用于样品选择的百分位数
--fperc:用于feature选择的百分位数
--stop:筛选的top samples数目
--ftop:筛选的top features数目

具体示例如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
export2graphlan.py --skip_rows 1,2 -i metagenome.txt --tree abundance.tree.txt --annotation abundance.annot.txt --most_abundant 50 --abundance_threshold 0.01 --least_biomarkers 7 --annotations 2,3,4,5 --external_annotations 6 --min_clade_size 1
graphlan_annotate.py --annot abundance.annot.txt abundance.tree.txt abundance.xml
graphlan.py --dpi 300 abundance.xml abundance.pdf --external_legends

运行结束后会生成pdf图像以及legend.pdf与annot.pdf两个图例文件,合并后如下所示:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微生态与微进化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
宏基因组数据分析:差异分析(LEfSe安装使用及LDA score计算)
报错:如果是r2py的问题,基本都是python版本的问题。 解决:虚拟环境中重新安装python2.7(推荐)。另一种方式是对虚拟环境中的conda降级,之后再进行安装。
全栈程序员站长
2022/09/05
4.2K0
宏基因组数据分析:差异分析(LEfSe安装使用及LDA score计算)
提供代码数据,向Nature学习如何用基因组数据来分析癌症的演化轨迹
某些基因的突变会驱动细胞不受控制地增殖并导致癌症。慢性髓性白血病(CML)中的费城染色体首次揭示了这种基因与癌症的关联<sup>1,2</sup>。然而,关于CML的发病轨迹、BCR-ABL1融合基因克隆扩增的速率及其如何影响疾病的认知仍然有限。通过对9名年龄在22至81岁之间的CML患者的1013个造血集落进行全基因组测序,我们重建了造血过程的系统发育树。研究发现,BCR和ABL1基因的内含子断裂并非总是出现,同时也观察到BCR基因中存在框外外显子断裂点,这需要通过外显子跳跃来形成BCR-ABL1融合基因。除了ASXL1和RUNX1突变外,其他额外的髓系基因突变主要存在于野生型细胞中。我们推断,由BCR-ABL1引起的爆发性增长在诊断前3-14年(置信区间为2-16年)即已开始,年增长率超过70,000%。在端粒长度较短的BCR-ABL1细胞中,突变积累更高,这反映了其过度的细胞分裂。克隆扩增速率与诊断时间呈负相关。普通人群中BCR-ABL1的检出情况与CML的发病率相符,而晚期和/或急变期CML的特征在于后续的基因组进化。这些数据突显了BCR-ABL1融合基因的强大致癌潜能,并与大多数癌症缓慢且连续的克隆演化轨迹形成了对比。
生信菜鸟团
2025/05/09
950
提供代码数据,向Nature学习如何用基因组数据来分析癌症的演化轨迹
🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~
最近发现了一个AI辅助的注释工具,非常不错,原作者也是向我毛遂自荐,用了一下确实不错。👍
生信漫卷
2025/04/21
1771
🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~
还在为细胞类型注释困扰?快试试 mLLMCelltype !
细胞类型注释是单细胞数据分析中的关键步骤。目前注释方法依赖于人工,手动将每个细胞簇中高表达的基因与文献中的经典细胞类型标记基因进行比对。这一流程及其耗时,而且需要专业的生物知识。随着测序成本的下降,当数据集规模扩大到数百万个来自不同组织的细胞,手动注释的方法已变得难以实现。
数据科学工厂
2025/04/27
1870
还在为细胞类型注释困扰?快试试 mLLMCelltype !
免组装宏基因组群落分析
宏基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。
SYSU星空
2022/05/05
7520
免组装宏基因组群落分析
人类微生物组计划 - 宏基因组/16S分析流程 bioBakery
bioBakery是NIH人类微生物组计划实施过程中开发的部分软件和使用教程的集合,主要由哈佛大学的Huttenhower实验室开发。提供了16S, 宏基因组,宏转录组分析的全部流程,并可以生成结果报告。
生信宝典
2018/10/25
4.4K0
人类微生物组计划 - 宏基因组/16S分析流程 bioBakery
m6A图文复现08-Peak结果可视化metaPlotR
上一期我们使用了Guitar包对Peak结果进行可视化,见:m6A图文复现07-Peak结果以及分布特征图
生信技能树
2021/10/12
2.8K0
用 eggnog-mapper 进行功能注释
eggnog-mapper 是一种用于对未知序列进行快速功能注释的工具。它使用 eggNOG 数据库中预先计算好的直系同源基因组和系统发育树,根据其进化关系推断他们的功能信息。eggnog-mapper 一般用于注释新的基因组,转录组亦或是宏基因组数据。
生信菜鸟团
2020/08/28
4.6K0
用 eggnog-mapper 进行功能注释
iTOL快速绘制颜值最高的进化树!
大家在看高分文章时,总会惊叹于,为什么人家能做出那么好看而且高大上的系统发育树,而且好看的图也能直接提升文章的档次,冲击高分文章。人家的树不管是从配色还是各种注释信息都让人无可挑剔,而你每次花了半个月时间做的进化树不是被老板嫌弃配色丑,就是太单调,没有各种辅助的注释信息。然后你默默捧起别人的文章学习时发现他们绝大部分都是用iTOL这个在线工具来进行的系统发育树的美化的。
生信宝典
2018/12/27
6.5K1
iTOL快速绘制颜值最高的进化树!
plotsr可视化syri变异检测的结果如何修改图例的排布
整个流程是minimap2比对,然后是syri做变异检测,最后使用plotsr这个命令可视化展示结果,用到的命令是
用户7010445
2023/08/23
5790
plotsr可视化syri变异检测的结果如何修改图例的排布
CheckM:基因组质量评估
基因组组装或者宏基因组binning获得的基因组草图,首先需要评估其质量,包括基因组完整度、污染度、序列分布等信息。
SYSU星空
2022/05/05
7.7K0
CheckM:基因组质量评估
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2
Functional IsoTranscriptomics (FIT) 是美国弗罗里达大学(University of Florida)Ana Conesa 教授团队(Genomics of Gene Expression Lab, ConesaLab)开发的在转录本isoform水平上进行生物信息学分析的流程,旨在提供一个全长转录组end-to-end的解决方案 (图1)。SQANTI 3 构成了FIT流程的第一个模块,其设计目的是使长读序列定义的转录组的质量控制和过滤成为可能,这些转录本通常含有artifacts和假阳性。因此,对全长转录组进行校正是进行FIT分析的前提,且对产生可靠的、在生物学上合理的结论/假设至关重要。SQANTI 3 是SQANTI 工具(发布)的最新版本,该版本合并 SQANT 1 和 SQANTI 2 中的功能并加入了新的功能 ,更好的对全长转录本进行深度表征 。
三代测序说
2024/01/27
2.6K0
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2
RNA-seq入门实战(六):GO、KEGG富集分析与enrichplot超全可视化攻略
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
14.1K0
RNA-seq入门实战(六):GO、KEGG富集分析与enrichplot超全可视化攻略
科研绘图系列:R语言绘制微生物物种系统发育树(phylogenetic tree)
物种系统发育树(Phylogenetic tree),也称为进化树或系统进化树,是一种以树状分支图形来表示各物种或基因之间的亲缘关系的图表。它利用生物的形态特征、分子序列(如DNA、RNA或蛋白质序列)等数据,通过数理统计算法来计算生物之间的进化关系,从而构建出一个反映物种进化历史的拓扑结构。
生信学习者
2025/01/15
5080
科研绘图系列:R语言绘制微生物物种系统发育树(phylogenetic tree)
245热图展示微生物组的物种和功能丰度或有无、距离矩阵
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生信宝典
2020/09/01
3K0
245热图展示微生物组的物种和功能丰度或有无、距离矩阵
MicrobiomeAnalyst | 零代码分析宏基因组数据
MicrobiomeAnalyst 是一个方便易用的宏基因组数据分析网站,它可以使没有生物信息学研究背景的研究人员和临床医生通过可视化界面自由探索微生物组数据,包括数据预处理、统计分析、功能分析以及挖掘公共数据集。
生信菜鸟团
2020/08/11
5.8K0
MicrobiomeAnalyst | 零代码分析宏基因组数据
microbiomeViz:绘制lefse结果中Cladogram「建议收藏」
平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下
全栈程序员站长
2022/08/30
1.9K1
microbiomeViz:绘制lefse结果中Cladogram「建议收藏」
宏基因组binning:MetaBAT
基于reads比对注释的物种binning可以获得宏基因组微生物群落的物种组成信息,但无法获得组成物种的基因组。要获得这些基因组数据,还需要基于不同基因组的特征对拼接的contigs进行binning。目前基于contigs binning的方法使用非常广泛,也已经开发了多种软件,其中最高引用次数的两款为MaxBin和MetaBAT。这两款软件均支持使用多样本拼接的contigs来提高binning的成功率,也即根据contigs在多个library中丰度的相关性(co-abundance pattern)来进行聚类。
SYSU星空
2022/05/05
1.5K0
宏基因组binning:MetaBAT
增强版在线LEFSe分析和可视化鉴定标志性基因或物种
LEfSe分析即LDA Effect Size分析,是一种用于发现和解释高维度数据 生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker)。
生信宝典
2022/01/18
2.5K0
增强版在线LEFSe分析和可视化鉴定标志性基因或物种
使用CCS序列数据改进宏基因组拼接效率和物种分类注释
DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。
用户1075469
2020/03/03
2.9K0
推荐阅读
相关推荐
宏基因组数据分析:差异分析(LEfSe安装使用及LDA score计算)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验