在前面的系列教程中,我们已经掌握了从原始数据到高质量 MAGs 的全套流程。现在,我们面临一个更深层次的问题:我们精心重建的 MAGs,在全球微生物多样性的版图中处于什么位置?
要回答这个问题,孤立地分析 MAGs 是不够的。我们必须为其建立一个广阔、可靠且标准统一的比较背景。本教程将指导你完成宏基因组分析的终极环节:构建一个包含近 20 万个基因组的、经过严格统一质控的参考数据库。
本教程核心:
我们将继续使用 metagenome 环境。核心工具 CheckM 和 GUNC 应该已经安装完毕。
conda activate metagenome
# 确保 CheckM 和 GUNC 及其数据库已就绪
# checkm data root
# gunc download_db
这一步是数据密集型工作,需要大量的下载时间和磁盘空间。
将所有下载的基因组(FASTA 格式)整理到一个统一的输入目录,例如 ALL_GENOMES_RAW/。
这是整个流程的灵魂。我们的目标是确保数据库中的每一个基因组,无论是来自德高望重的 RefSeq,还是我们自己新发现的 MAG,都通过了完全相同的质量检验。
我们将使用一个四重过滤标准:
处理近 20 万个基因组,串行运行是不可行的。我们必须使用并行计算。这里以 GNU Parallel 为例,它是在多核服务器上执行批量任务的神器。
# 创建输出目录
mkdir -p CHECKM_RESULTS
# 使用 find 和 parallel 批量运行 CheckM
find ALL_GENOMES_RAW/ -name "*.fa" | \
parallel -j 24 --bar 'checkm lineage_wf -t 8 -x fa --tab_table -f CHECKM_RESULTS/{/.}.tsv CHECKM_RESULTS/{/.}'
# 参数解释:
# find: 找到所有 .fa 后缀的基因组文件。
# parallel -j 24: 同时运行 24 个任务。
# --bar: 显示一个酷炫的进度条。
# '...' : 引号内是每个任务要执行的命令。{} 代表输入的文件名,{/.} 代表不含路径和后缀的文件名。
# -t 8: 每个 CheckM 任务内部使用 8 个线程。
运行结束后,CHECKM_RESULTS/ 目录会包含每个基因组的详细质控表。
# 创建输出目录
mkdir -p GUNC_RESULTS
# 同样使用 parallel
find ALL_GENOMES_RAW/ -name "*.fa" | \
parallel -j 24 --bar 'gunc run -r gunc_db_progenomes2.1.dmnd -t 8 --out_dir GUNC_RESULTS/{/.} --file_extension fa --detailed_output -i {}'
运行结束后,GUNC_RESULTS/ 目录下每个基因组会有一个对应的子目录和结果文件。
这是数据处理的环节。我们需要编写一个脚本(如 Python 或 R)来完成以下操作:
这个过程完成后,FINAL_GENOME_DATABASE/ 目录就包含了最终的、经过严格和统一标准筛选的参考基因组。
通过这个严谨的流程,不仅仅是简单地“收集”了数据,而是“构建”了一个高质量、标准统一的分析基础。这个数据库本身就是一项宝贵的资产。
现在,你可以将自己新组装并通过相同 QC 流程的 MAGs 添加到这个库中,然后进行下一步的关键分析:
至此,宏基因组分析已经达到了可与领域内顶级研究直接对话的深度与广度。