宏基因组的终章：构建发表级参考基因组数据库 (RefSeq + HBC + GUNC)

天意生信云

发布于 2025-11-20 16:23:35

100

文章被收录于专栏：天意生信俱乐部天意生信俱乐部

在前面的系列教程中，我们已经掌握了从原始数据到高质量 MAGs 的全套流程。现在，我们面临一个更深层次的问题：我们精心重建的 MAGs，在全球微生物多样性的版图中处于什么位置？

要回答这个问题，孤立地分析 MAGs 是不够的。我们必须为其建立一个广阔、可靠且标准统一的比较背景。本教程将指导你完成宏基因组分析的终极环节：构建一个包含近 20 万个基因组的、经过严格统一质控的参考数据库。

本教程核心：

数据源整合: 汇集来自 NCBI RefSeq (培养微生物)、HBC (人类肠道) 和 CGR (宏基因组) 的海量基因组。
统一质量控制: 应用一套严格的多维标准 (CheckM 完整度/污染度, GUNC 嵌合体检测, QS 质量评分) 对所有基因组（包括我们自己的 MAGs）进行无差别筛选。
构建最终库: 生成一个可用于下游联合聚类、物种划分和进化分析的、高质量的基因组集合。

准备工作：环境与数据源

环境部署

我们将继续使用 metagenome 环境。核心工具 CheckM 和 GUNC 应该已经安装完毕。

conda activate metagenome

# 确保 CheckM 和 GUNC 及其数据库已就绪
# checkm data root
# gunc download_db

数据源收集

这一步是数据密集型工作，需要大量的下载时间和磁盘空间。

NCBI RefSeq: 从 NCBI FTP 站点下载指定快照版本的所有原核生物基因组。
HBC (Human Bug Collection): 这是一个高质量的人类肠道微生物基因组集合。根据您提供的链接下载：https://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz
CGR (Critical Assessment of Genome Recovery): 这可能是一个特定的、领域内公认的宏基因组 MAGs 集合，请根据您的项目背景下载。

将所有下载的基因组（FASTA 格式）整理到一个统一的输入目录，例如 ALL_GENOMES_RAW/。

核心流程：统一且严格的质量过滤

这是整个流程的灵魂。我们的目标是确保数据库中的每一个基因组，无论是来自德高望重的 RefSeq，还是我们自己新发现的 MAG，都通过了完全相同的质量检验。

质控标准解读

我们将使用一个四重过滤标准：

完整度 (Completeness) > 50%: 由 CheckM 评估，确保基因组不是过于零碎的片段。
污染度 (Contamination) < 5%: 由 CheckM 评估，严格控制外源序列的混入。
QS (Quality Score) ≥ 50: 一个综合评分，计算公式为 QS = Completeness - 5 × Contamination。这个指标极其重要，因为它对污染的惩罚权重很高，能有效筛除那些看似完整度高但污染同样不低的基因组。
通过 GUNC 检测: 确保基因组内部的基因分类学来源一致，没有发生跨物种的嵌合。

软件用法：大规模并行质控

处理近 20 万个基因组，串行运行是不可行的。我们必须使用并行计算。这里以 GNU Parallel 为例，它是在多核服务器上执行批量任务的神器。

第一步：批量运行 CheckM

# 创建输出目录
mkdir -p CHECKM_RESULTS

# 使用 find 和 parallel 批量运行 CheckM
find ALL_GENOMES_RAW/ -name "*.fa" | \
    parallel -j 24 --bar 'checkm lineage_wf -t 8 -x fa --tab_table -f CHECKM_RESULTS/{/.}.tsv CHECKM_RESULTS/{/.}'

# 参数解释:
# find: 找到所有 .fa 后缀的基因组文件。
# parallel -j 24: 同时运行 24 个任务。
# --bar: 显示一个酷炫的进度条。
# '...' : 引号内是每个任务要执行的命令。{} 代表输入的文件名，{/.} 代表不含路径和后缀的文件名。
# -t 8: 每个 CheckM 任务内部使用 8 个线程。

运行结束后，CHECKM_RESULTS/ 目录会包含每个基因组的详细质控表。

第二步：批量运行 GUNC

# 创建输出目录
mkdir -p GUNC_RESULTS

# 同样使用 parallel
find ALL_GENOMES_RAW/ -name "*.fa" | \
    parallel -j 24 --bar 'gunc run -r gunc_db_progenomes2.1.dmnd -t 8 --out_dir GUNC_RESULTS/{/.} --file_extension fa --detailed_output -i {}'

运行结束后，GUNC_RESULTS/ 目录下每个基因组会有一个对应的子目录和结果文件。

第三步：整合结果并执行最终过滤

这是数据处理的环节。我们需要编写一个脚本（如 Python 或 R）来完成以下操作：

遍历所有基因组。
解析对应的 CheckM 输出文件，提取 Completeness 和 Contamination。
解析对应的 GUNC 输出文件 (*.gunc.tsv)，检查 pass.gunc 列是否为 TRUE。
计算 QS = Completeness - 5 * Contamination。
应用四重过滤标准，将通过所有检查的基因组文件名输出到一个列表 passed_genomes.txt。
最后，根据这个列表，将合格的基因组文件从原始目录复制到一个新的、干净的目录 FINAL_GENOME_DATABASE/。

这个过程完成后，FINAL_GENOME_DATABASE/ 目录就包含了最终的、经过严格和统一标准筛选的参考基因组。

总结与下一步

通过这个严谨的流程，不仅仅是简单地“收集”了数据，而是“构建”了一个高质量、标准统一的分析基础。这个数据库本身就是一项宝贵的资产。

现在，你可以将自己新组装并通过相同 QC 流程的 MAGs 添加到这个库中，然后进行下一步的关键分析：

联合聚类与去冗余: 使用 dRep 等工具，基于平均核苷酸一致性 (ANI) 对这近 20 万个基因组进行聚类，定义“物种”级别的代表性基因组 (Species-level representative genomes, SGBs)。
系统发育分析: 将的MAGs 放置在由这个庞大数据库构建的、更精确的进化树上。
泛基因组学分析: 在更广阔的背景下研究 MAGs 的核心基因与辅助基因。

至此，宏基因组分析已经达到了可与领域内顶级研究直接对话的深度与广度。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-10-14，如有侵权请联系 cloudcommunity@tencent.com 删除

工具