泛基因组分析整合多个体基因组,识别核心与可变基因组,揭示遗传多样性、适应能力、致病与耐药性等特性,有助于发现新基因与家族,揭示基因表达与调控模式,为微生物生态、疾病研究和药物开发提供见解。泛基因组分析软件众多且各有千秋,Roary、PGAP等因高效、准确、易用受青睐,今天就介绍细菌泛基因组分析的利器——Roary。
Roary是一个专注于大规模原核生物泛基因组分析的开源工具,其核心功能是利用由Prokka(参考文章:昨日重现:一个软件,让我想起了生物信息学的黄金时代)生成的GFF3格式的注释组装文件(含核酸序列数据),来计算物种的泛基因组结构。它依赖于Perl脚本和bedtools、cd-hit、ncbi-blast+、mcl、mafft和Fasttree(参考文章:FastTree:构建系统进化树,比快更快)等多个开源工具,这些工具相互交互,确保了分析的高效准确。
4.基因组比较:Roary支持使用PRANK或MAFFT(参考文章:多序列比对工具,我曾经最爱这一款)进行多序列比对,生成核心基因的多序列比对文件,以支持进一步的系统发育(参考文章:1分钟构建系统进化树)与基因组比较研究。
通过并行计算,Roary可以大大缩短基因组分析的时间,且不会牺牲结果的质量,非常适合处理大规模数据集。
Roary参数丰富,可按需调整。若寻核心基因和建系统树,-e和 -n(-n fast core gene alignment with MAFFT)重要;若重基因分布,-i(调整blastp相似度阈值)和 -cd(核心基因存在比例下限)需斟酌。
summary_statistics:此文件记录了各类基因的数量及总数。若核心基因或总基因数异常高,可能表明输入文件有误,如混入其他物种基因组或样品受污染。
gene_presence_absence.csv:记录各样本中基因的存在或缺失、名称、功能注释及所在菌株数量,有助于分析基因分布。
其他输出文件:如gene_presence_absence.Rtab这类0/1矩阵文件便于R语言分析,而core_gene_alignment.aln等文件为深入研究提供了数据基础。
Roary支持多种安装方式,包括Bioconda、Docker和虚拟机等,方便用户在不同平台上快速部署和使用。
Roary是一个强大的泛基因组分析工具,能够帮助我们更好地理解和分析细菌的基因组数据。如果你不想安装本地软件,或者希望随时随地进行分析,则可以在Galaxy生信云平台(usegalaxy.cn)上运行Roary轻松快捷进行泛基因组的分析。
