宏基因组分析Pipeline
GraPhlAn宏基因组物种谱可视化
更新中……
Metaphlan2直接输出的结果文件及不同样本融合的物种谱(或者其他来源的相同格式的物种谱)可以用GraPhlan来可视化。GraPhlAn是一个环状分类和系统发育树可视化软件,主页地址及安装方法如下所示:
主页:http://huttenhower.sph.harvard.edu/GraPhlAn
hg clone https://hg@bitbucket.org/nsegata/graphlan
里面包含两个脚本graphlan.py和graphlan_annotate.py,其中graphlan.py用于系统发育树可视化,使用方法如下所示:
graphlan.py [Options] input_tree output_image
Options
--format:输出图像格式,默认为none,即根据output_image后缀来判断
--dpi:非矢量输出图像的分辨率
--size:输出图像的尺寸(可以理解为环状图直径,单位英寸),默认为7.0
--pad:图像最外围元素与边界的距离,单位为英寸
--external_legends:将图例输出到单独文件
--avoid_reordering:阻止系统发育树重排序,默认为重排序
input_tree:PhyloXML格式的系统发育树
output_image:输出图像文件名,可选后缀png、pdf、ps、eps、svg
graphlan_annotate.py用于将绘图元素添加到系统发育树中,其使用方法如下所示:
graphlan_annotate.py [--annot annotation_file] input_tree output_tree
--annot:添加额外信息用的annotation file
input_tree:输入的系统发育树,支持Newick、Nexus、PhyloXML格式
output_tree:输出的PhyloXML格式的系统发育树
另一个很重要的脚本是export2graphlan路径下的export2graphlan.py,用于产生annotation file,使用方法如下所示:
export2graphlan.py [-i LEFSE_INPUT] [-o LEFSE_OUTPUT] -t TREE -a ANNOTATION [--annotations ANNOTATIONS…]
可选参数:
--annotations:列出哪个level被注释,多个level逗号隔开,例如1,2,3,其中1到7对应于界门纲目科属种
--external_annotations:列出哪个level用外部图例来注释,例如1,2,3,一般用于种属level,因为种属信息多,很可能图片上写不开
--background_levels:列出哪个level使用背景颜色突出,例如1,2,3
--background_clades:列出哪个树的分支使用背景颜色突出,例如"Bacteria.Actinobacteria,Bacteria.Bacteroidetes.Bacteroidia,Bacteria.Firmicutes.Clostridia.Clostridiales".
--background_colors:用来突出的背景颜色,例如"#29cc36, (150; 100; 100), (280;80; 88)"
--title:图片的标题,例如--title "Title example"
--title_font_size:标题的尺寸默认为15
--def_clade_size:系统发育分支的默认尺寸,默认为10
--min_clade_size:筛选为biomarkers的系统发育分支最小尺寸,默认为20
--max_clade_size:筛选为biomarkers的系统发育分支最大尺寸,默认为200
--def_font_size:字体的默认大小,默认为10
--min_font_size:所使用的最小字号,默认为8
--max_font_size:所使用的最大字号,默认为12
--annotation_legend_font_size:注释图例的字体,默认为10
--abundance_threshold:用于注释的系统发育分支的最小丰度,默认为20.0
--most_abundant:如果只有-i, --lefse_input被提供,可以指定多少分支被突出,将按照相对丰度优先选取,默认为10
--least_biomarkers:如果只有-i, --lefse_input被提供,可以指定提取的biomarkers的最小数目,默认为3
--discard_otus:是否丢弃taxonmy中的OUT ID,默认为True也即不丢弃
--biomarkers2colors:指定biomarkers的颜色
输入参数(以下至少提供一项):
-i, --lefse_input:LEfSe的输入数据格式,可以是MetaPhlAn或HUMAnN的分析结果
-o, --lefse_output:LEfSe输出结果数据LEfSe基于lefse_input的分析结果
输出参数:
-t, --tree:输出tree的文件名
-a, --annotation:输出的注释文件信息
输入数据矩阵参数:
--sep:分隔符
--out_table :输出处理的数据矩阵到文件
--fname_row:包含feature名称的行,默认0,如没有feature名称则设置-1
--sname_row:包含样品名称的列,默认为0,如没有sample名称则设置-1
--metadata_rows:metadata所在的行
--skip_rows:忽略的行的列表,例如1,2
--sperc:用于样品选择的百分位数
--fperc:用于feature选择的百分位数
--stop:筛选的top samples数目
--ftop:筛选的top features数目
具体示例如下:
export2graphlan.py --skip_rows 1,2 -i metagenome.txt --tree abundance.tree.txt --annotation abundance.annot.txt --most_abundant 50 --abundance_threshold 0.01 --least_biomarkers 7 --annotations 2,3,4,5 --external_annotations 6 --min_clade_size 1
graphlan_annotate.py --annot abundance.annot.txt abundance.tree.txt abundance.xml
graphlan.py --dpi 300 abundance.xml abundance.pdf --external_legends
运行结束后会生成pdf图像以及legend.pdf与annot.pdf两个图例文件,合并后如下所示:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有