Hello,Hello小伙伴们大家好,最近小编在搭建宏病毒组(metaviromes)相关流程,与常规宏基因组(metagenomics)分析相比,宏病毒组的核心挑战在于如何在组装得到的fasta序列中精准识别并提取病毒相关的序列。
目前,已有十余种用于从组装的fasta序列中识别病毒序列的软件工具被开发出来。相信不少同样在做病毒组分析的小伙伴和我一样,会面临这样一个问题:面对众多病毒识别工具,如何选择最适合自己数据和需求的软件以构建高效的分析流程?
2024年4月期刊Genome Biology发表了一篇针对这一问题的系统性评估论文。该研究基于不同类型的宏基因组与宏病毒组数据,对当前主流病毒识别软件的性能进行了全面比较,为生信研究者选择合适的工具提供了有价值的参考和指导。
文章摘要
背景
由于大多数病毒仍无法被培养,宏基因组学目前已成为发现新病毒的主要方法。然而,在宏基因组数据中检测病毒并不容易。过去几年中,科研人员开发了许多用于病毒识别的生物信息学工具,使得如何选择合适的工具、参数和阈值成为一项挑战。由于这些工具检测的生物学信号、算法、训练及参考数据库各不相同,因此进行独立的基准评测,为用户提供客观指导,显得尤为重要。
结果
本研究在来自三种不同生境的八组病毒与微生物配对数据集(包括一组来自南极沿海水域的复杂新数据集)上,以十三种模式对九种主流病毒识别工具的性能进行了比较。各工具的真正例率(0–97%)和假正例率(0–30%)差异较大。PPR-Meta 在区分病毒与微生物 contig 方面表现最佳,其次为 DeepVirFinder、VirSorter2 和 VIBRANT。不同工具在基准数据集中识别到的子集也不尽相同,除 Sourmash 外,其余工具均能发现独特的病毒 contig。通过调整参数阈值,各工具的性能得到提升,提示在实际使用前,建议用户根据需求优化参数设置。
结论
总体而言,本研究的独立基准评测有助于研究者选择合适的病毒识别工具,并为参数调整提供了实用建议,为病毒组学研究提供了重要参考。
材料方法
1)本研究涉及病毒分析工具(Additional file 2: Table S1)
2)本研究涉及原始数据集(Additional file 2: Table S3)
3)分析流程
说明
真实环境宏基因组数据为例评测流程如下:
A:通过 0.22 μm 滤膜对三种不同生境的样本进行尺寸分级,分别获得微生物组分(>0.22 μm)和病毒富集组分(<0.22 μm);
B:对病毒富集组分进行 DNase 处理,以在裂解病毒前去除游离 DNA;
C:分别从微生物组分和病毒富集组分中提取、纯化并测序DNA,从而获得病毒和微生物数据集;
D:对测序数据进行质控和组装,拼接成更长的 contig,长度小于 1500 bp 的 contig 会被排除;
E:利用 minimap2 检测并去除了病毒数据集与微生物数据集之间的同源 contig,最终保留的病毒特异性 contig 和微生物特异性 contig 分别作为“真阳性”和“真阴性”基准;
F:上述数据集被用于评估九种生物信息学病毒识别工具的性能。根据算法类型,工具名称采用不同颜色区分:红色表示卷积神经网络类工具,绿色为其他机器学习工具,蓝色为仅基于同源性比对的工具。
4)生信分析
使用ViromeQC评估每个病毒数据集的质量。该工具通过统计测序reads在小亚基和大亚基rRNA以及单拷贝细菌标记基因上的比对情况,计算出三个评分,以量化病毒样本中的病毒含量。原始数据先用fastp进行质控,质控结果通过MultiQC进行统计汇总。随后,质控后的数据采用metaSPAdes进行组装,k-mer设置为21、33、55、77、99和127。组装结果中,长度小于1500 bp的序列通过seqtk进行过滤。最后,将原始测序reads用bwa mem比对到组装后的序列上,并用samtools stats对比对结果进行统计分析。
使用 Minimap2(参数 -x ava-ont)将病毒组分的 contig 与微生物组分的 contig 进行比对,,允许 5–15% 的错配,以识别两者之间的重叠序列。对于那些比对覆盖度达到微生物 contig 长度 80% 及以上的 contig,无论其来源于哪个组分,均会被从数据集中剔除。将病毒组分和微生物组分中长度不少于 1500 bp 的唯一 contig,分别作为“真阳性”和“真阴性”标准。在工具识别结果判定中,病毒 contig 被识别为病毒时视为真阳性,未被识别为病毒时为假阴性;微生物 contig 被识别为病毒时为假阳性,被识别为非病毒时为真阴性。
为评估各工具在成分已知的模拟数据上的性能,本研究从RefSeq数据库中下载了来自2020年1月12日后新增的6495个病毒基因组和52,046个细菌基因组(最新至2023年11月13日)。剔除质粒及长度小于1500 bp的基因组后,最终获得6155个病毒基因组和22,552个细菌基因组。通过mmseqs2蛋白翻译比对(–search-type 2),将这些新增病毒与此前收录病毒的同源性分为三组:低相似度(≤20%,n=41,970)、中等相似度(>20%且≤40%,n=15,580)和高相似度(>40%且≤100%,n=4,000)。随后,从病毒和细菌数据集中,按均值2000 bp、标准差500 bp、最小值1500 bp的正态分布,切割出52,406个模拟contig用于后续分析。
本研究采用 What-the-Phage 流程对病毒 contig 进行预测,该流程集成了十种病毒鉴定工具。由于 VirNet 未能成功运行,最终实际分析纳入了九种工具,包括:基于卷积神经网络(CNN)的 DeepVirFinder 和 PPR-Meta;其他机器学习方法的 Seeker、VIBRANT、VirFinder 和 VirSorter2;以及基于同源性搜索的 MetaPhinder、Sourmash 和 VirSorter。所有工具的预测结果均被二值化处理,0 表示预测为微生物来源,1 表示预测为病毒来源。在计算性能指标前,每个工具识别结果中的 NA 均被替换为零(即视为未被预测为病毒)。随后,计算了真阳性率(TPR,也称为敏感性)、假阳性率(FPR)、真阴性率(TNR,也称为特异性)、精准率和 F1 分数,并以箱线图的形式展示。
此外,本研究通过CAT工具对所有测试数据集的contig进行超级界水平的分类注释,将结果分为病毒、微生物和未知三类,并通过条形图展示了不同工具(或工具组合)专属识别contig的分类分布。此外,利用CheckV提供的病毒与微生物HMM库,对contig中的病毒和微生物信号进行了深入检测。
研究结果
1)来自三种生境的真实环境测试数据集的质量与组成
2)基于机器学习的工具性能优于同源搜索工具
3)不同病毒鉴定工具在不同生境病对毒序列的鉴定能力对比
4)在真实世界测试数据集中对预测得到的病毒contig进行验证
5)展示在海水病毒组数据集中,仅被单个工具识别出来的最长contig的基因组图谱
研究结论
本研究系统评估了九款主流病毒识别工具在真实宏基因组数据中鉴定病毒序列的性能。研究团队选取了来自海水、土壤和肠道三种不同真实生物群落的数据集,旨在比较这些工具在不同环境下的定病毒序列性能表现。结果显示,基于卷积神经网络(CNN)的工具,尤其在处理低质量contig时,整体表现优于仅依赖同源性比对的方法,这为今后的病毒挖掘提供了新的可能,预计该领域还将持续取得进展。
在所有评测工具中,PPR-Meta、DeepVirFinder、VirSorter2 和 VIBRANT 表现最为突出,兼具较高的真阳性率和较低的假阳性率。不过,任何工具都无法做到尽善尽美,各有优缺点。因此,不建议简单地将所有工具的结果取并集,否则容易带来较多假阳性。工具的选择应结合具体的研究需求。例如,如果研究重点在于发现新型病毒,对假阳性的容忍度较高,可优先考虑 PPR-Meta 和 DeepVirFinder 这类灵敏度更高的工具;若更关注结果的准确性,建议使用 VirSorter2 和 VIBRANT,它们假阳性更低,但灵敏度相对略低。
总体来看,本研究对多种病毒识别工具在不同生境下的表现进行了全面比较,为宏基因组领域的研究者从新数据中挖掘病毒元素提供了有价值的参考。作者希望这项基准评测能为研究者选用合适的工具和参数设置,带来实际的指导和帮助。
数据代码
学习指导
本研究通过真实数据和模拟数据,对九种主流病毒序列鉴定工具进行了系统性评估。作者不仅在 GitHub 上公开了完整的分析流程代码,还在 Zenodo 和 NCBI 平台共享了中间分析结果及原始数据,对于想要深入学习宏病毒组分析的同学来说,这无疑是非常优质的学习素材。
本篇解读仅聚焦于原文中的分析方法和核心结果,旨在为大家梳理研究思路,抛砖引玉。如果大家希望更全面、系统地理解这项研究,建议仔细阅读论文的补充材料及讨论部分。相信通过深入学习,大家一定能够有所收获!
关于小编
小编就职于中国热带农业科学院,环境与植物保护研究所农业农村部热带地区低碳绿色农业重点实验室。目前实验室主要以研究方向是使用宏基因组学、宏病毒组等多组学研究微生物对土壤,大气等介质中元素循环的作用,环境中微生物功能基因的挖掘。