宏基因组学通过对环境样本中的全部遗传物质进行测序和分析,可以全面揭示微生物群落的组成、功能和相互作用。病毒携带遗传物质,在生态系统中扮演重要角色。宏病毒序列的鉴定与分析,往往需要基于宏基因组部分结果,本篇就主要介绍以组装好的Contigs作为输入,运行病毒识别工具,筛选出可信的病毒Contigs。
这一步是整个宏病毒组分析的基石,其准确性和全面性直接决定了下游所有分析的质量。本文将详细介绍当前该领域三款主流的病毒挖掘工具:VirSorter2、VIBRANT 和 DeepVirFinder,深入解析它们的核心作用、环境部署与使用方法,并提供在实际项目中如何选择和整合这些工具的策略。
从宏基因组组装的数百万条Contigs中识别病毒序列,如同大海捞针。其主要挑战在于病毒基因组的多样性极高,许多病毒缺乏普适的、类似细菌16S rRNA的标记基因。因此,生物信息学工具开发了三大主流鉴定策略:
现代病毒挖掘工具通常会融合多种策略以达到最佳效果。
VirSorter2 是目前社区公认功能最强大、发表文章中最常用的病毒挖掘工具。它通过一个集成的多分类器系统,结合了病毒标志性蛋白、全蛋白域富集分析以及序列的k-mer特征,实现了极高的准确性和灵敏度。

○ 综合性强:不依赖单一特征,而是综合多个维度的证据进行打分,结果非常可靠。
○ 发现新病毒能力强:由于其部分模型不依赖于已知病毒蛋白,因此在发现新型病毒方面表现出色。
○ 评分系统清晰:为每条Contig提供一个0到1的评分(max_score),用户可以根据研究需求(要高精度还是高召回)灵活设定阈值。
VirSorter2 依赖复杂,强烈建议使用 Mamba 进行安装。
# 1. 创建并激活Conda环境
mamba create -n virsorter2 -c conda-forge -c bioconda virsorter2
conda activate virsorter2
# 2. 下载并设置数据库(首次使用需要,耗时较长,确保网络稳定)
# 将 /path/to/your/db/directory 替换为你的数据库存储路径
virsorter-data-update --db-dir /path/to/your/db/directory
virsorter2 run \
-i your_assembly_contigs.fasta \ # 输入的宏基因组组装Contigs文件
-w /path/to/output_directory \ # 输出目录
--min-length 1500 \ # (推荐) 仅处理长度 > 1500 bp的Contigs
-j 16 \ # 使用的线程数
all # 'all'模式会运行所有可用模型进行最全面的预测
○ --min-score: VirSorter2 默认不过滤分数,但会在 final-viral-score.tsv 文件中提供分数。通常,max_score >= 0.9 可认为是高可信度病毒,0.5 <= max_score < 0.9 为中等可信度。在探索性分析中,可以先提取所有 max_score >= 0.5 的序列,再用下游工具(如CheckV)进行质量评估。
VIBRANT 是另一款非常受欢迎的病毒挖掘工具,它主要通过HMM模型扫描病毒蛋白家族(结合了NCBI RefSeq、PhagesDB和VOGs等数据库)来识别病毒序列,并以其自动化的流程和详尽的功能注释输出而著称。
○ 速度快:相对于VirSorter2,VIBRANT的运行速度通常更快。 ○ 功能注释丰富:在识别病毒的同时,还能注释其辅助代谢基因(AMGs)、毒力因子和抗性基因,并评估其生活史(裂解性或溶源性)。 ○ 流程一体化:从病毒识别到初步功能分析一气呵成,输出结果非常友好。
# 1. 创建并激活环境
mamba create -n vibrant -c conda-forge -c bioconda vibrant
conda activate vibrant
# 2. 下载并设置数据库(首次使用)
# 将 /path/to/vibrant_db 替换为你的数据库存储路径
download-db.sh -d /path/to/vibrant_db
VIBRANT_run.py \
-i your_assembly_contigs.fasta \ # 输入的Contigs文件
-folder /path/to/vibrant_output \ # 输出目录
-d /path/to/vibrant_db \ # VIBRANT数据库路径
-t 16 # 使用的线程数
DeepVirFinder (DVF) 采用了与前两者完全不同的策略。它是一个基于深度学习的工具,通过学习已知病毒和原核生物基因组的k-mer频率分布模式来区分病毒和非病毒序列。
○ 极致的速度:由于不涉及蛋白比对,DVF的速度非常快,适合处理超大规模的数据集。
○ 完全不依赖参考数据库:其识别能力不依赖于同源性,因此在挖掘极其新颖的病毒方面有独特潜力。
○ 轻量化:无需下载庞大的蛋白质数据库。
# 1. 创建并激活环境
mamba create -n dvf -c conda-forge -c bioconda deepvirfinder
conda activate dvf
dvf.py \
-i your_assembly_contigs.fasta \ # 输入的Contigs文件
-o /path/to/dvf_output \ # 输出目录
-l 1500 # (推荐) 筛选最小长度
DVF会为每个Contig生成一个score(0-1)和一个p-value。通常,score > 0.9 且 p-value < 0.01 被认为是高可信度的病毒预测结果。
没有一个工具是完美的。它们各自的算法偏好会导致其结果集既有重叠,也各有独特发现。因此,为了最大化病毒序列的检出率(即提高召回率),推荐的策略是联合使用多个工具。
VirSorter2 和 VIBRANT。
○ VirSorter2 作为主体,提供最可靠的核心病毒集。
○ VIBRANT 作为补充,其不同的算法可能捕获VirSorter2遗漏的病毒,并且其丰富的注释可以为后续分析提供额外信息。DeepVirFinder 可作为大规模数据集的快速预处理步骤,或者当研究重点是寻找与已知病毒差异极大的“暗物质”病毒时,可将其结果与前两者进行比较。通过本章介绍的方法,我们已经从海量的宏基因组Contigs中成功挖掘出了一个候选病毒序列集合。然而,这个集合的质量仍然是良莠不齐的。它们是完整的病毒基因组,还是一个基因组碎片?它们是否意外地包含了宿主的DNA片段?
要回答这些问题,就需要进入宏病毒组分析的下一个关键步骤——病毒基因组质量评估与纯化。在下一篇文章中,我们将详细介绍如何使用 CheckV 工具对我们今天得到的病毒序列进行精细的质量评估,为构建最终高质量的vOTUs(病毒操作分类单元)做好准备。