Hello,Hello小伙伴们大家好,好久没有给大家更新微信公众文了,最近小编在学习宏病毒组,其中一个和宏基因组类似的过程——binning,然后和宏基因组binning不同是,目前宏基因组binning工具数目众多,宏病毒组binning工具数目稀少,今天小编为大家介绍一款宏病毒组binning工具—— vRhyme。
vRhyme 是一款多功能工具,用于从宏基因组数据中对病毒基因组进行binning。vRhyme 通过利用不同scaffold序列覆盖度差异(coverage variance comparisons)和对特质序列的监督学习进行binning(supervised machine learning classification),构建病毒宏基因组组装基因组(viral metagenome-assembled genomes,vMAGs)。
重要提示:vRhyme 专为处理病毒sequences/scaffolds。标准流程建议是通过病毒预测工具(如 VIBRANT , VirSorter2)从宏基因组中筛选病毒序列,再将候选的病毒序列作为 vRhyme 的输入。值得注意的是 vRhyme 也支持直接输入组装后宏基因组结果,但其对宏基因组序列的binning性能并未经过充分评估。故vRhyme 不适用于微生物分箱。
# 创建环境conda虚拟环境
conda create -c bioconda -n vRhyme python=3 networkx pandas numpy numba scikit-learn pysam samtools mash mummer mmseqs2 prodigal bowtie2 bwa
# 激活conda虚拟环境
conda activate vRhyme
# 从Github下载安装包,并使用pip安装
git clone https://github.com/AnantharamanLab/vRhyme
pip install ./
# 将vRhyme_machine_model_ET.sav.gz解压并copy到conda目录下
mv vRhyme_machine_model_ET.sav ~/softwara/miniconda3/envs/vRhyme/lib/python3.7/site-packages/vRhyme/models
# 测试是否安装成功,显示内容如下所示,说明软件安装成功
test_vRhyme.py
Python Dependencies
-------------------
scikit-learn: Success (v1.0.2)
numpy: Success (v1.21.5)
numba: Success (v0.56.4)
pandas: Success (v1.3.5)
pysam: Success (v0.15.4)
networkx: Success (v2.6.3)
Program Dependencies
--------------------
mmseqs: Success
samtools: Success
prodigal: Success
mash: Success
nucmer: Success
bowtie2: Success
bwa: Success
Machine Learning Models
-----------------------
NN model: Success
ET model: Success
注意:
参数 | 解释 | 备注 |
---|---|---|
-h | 输出帮助信息 | |
--version | 输出版本信息 | |
-i | 输入待分箱的核苷酸序列 | 作者建议使用先从宏基因组或病毒组组装结果中预测出的病毒scaffold序列作为输入文件,当然也可选择直接输入宏基因组组装结果。 |
-o | 运行结果输出目录 | 结果输出目录必须不存在,否则软件会强制退出,无法运行。 |
-g | 输入预测好的CDS核苷酸序列 | 如果输入该文件,软件不会运行Prodigal。 |
-p | 输入预测好的CDS氨基酸序列 | 如果输入该文件,软件不会运行Prodigal。 |
-c | 输入scoffold覆盖度文件 | 这个文件可以使用bam文件,借助于jgi_summarize_bam_contig_depths生成并使用软件内部脚本cov_table_convert.py转化格式 |
-l | 用于binning的最短scffol长度,默认为2k | 作者认为短于2kb的scoffold基因信息量不足,无法保证分箱准确性。 |
-b | 输入比对结果bam文件,排序或不排序均可 | vRhyme会根据bam文件计算序列的覆盖度,支持多个bam文件输入,如:-b bam_file_folder/*.bam。 |
-s | 输入比对结果sam文件 | vRhyme会自动将SAM转换为BAM格式。 |
-r | 输入pair end fastq文件,支持gizp压缩 | |
-u | 输出单端fastq文件,支持gizp压缩 | |
-v | 输入read1和read2交错式出现的fastq文件,支持gizp压缩 | 如果按照输入的这种格式的文件,vRhyme只能调用bowtie2进行比对。 |
--keep_circ | 是否过滤环状病毒基因组,默认为开启 | |
--interest | 提供scaffold列表,表示使用指定的scaffold进行binning | |
--keep_sam | 保留比对过程中的sam文件 | 默认为ture,表示删除。 |
--keep_bam | 保留比对过程中的为排序的bam文件 | 默认为ture,表示删除。 |
--verbose | 如何输出运行日志 | 默认为ture,将日常同时输出到屏幕和保存在日志中。 |
--prefix | 输出文件前缀 | 默认为vRhyme_。 |
-t | 软件运行的进程数 | |
--speed | 每个进程内部使用的线程数 | |
--aligner | 如果输入是fastq文件,需要选择比对工具bwa或者bowtie2 | BWA参数为mem,Bowtie2参数为--no-unal --no-discordant并能自动建索引。 |
--read_id | 根据最低reads identity度对比对结果进行过滤 | 默认为97%。 |
--mask | 计算覆盖度时屏蔽scaffold两端的特定碱基数 | 默认为150。 |
--outliers | 删除覆盖率异常的的scaffold | 默认为4,设置为0代表关闭这个功能。 |
--bin_size | 每个binning中包含最小scaffold数量 | 默认为2。 |
--iter | binning算法的迭代次数,范围 10-20 | 默认为20。 |
--red | 每个binning中冗余蛋白的最大数量 | 默认为50,表示宽松,运行binning存在yi定的污染。 |
--cov | 某个样本中scaffold最低覆盖度 | 默认为0.8。 |
--model | 选择binning的核心算法 | 提供三种选项,对应不同的算法策略,Neural Network, NN、Extra Trees, ET和两者相结合(默认) |
--derep_only | 仅执行去冗余,跳过binning流程 | 默认为关闭。 |
--method | 选择去冗余方法 | none(默认):关闭去冗余。longest(最长代表法):去除冗余序列,保留最长的一条代表。composite(组合序列法):合并完全相同的序列,并将重叠的序列拼接为组合序列。 |
# 软件自带数据
vRhyme -i scaffolds.fasta -c coverage_values.tsv -o result -t 16
# 常用模式
vRhyme -i fasta -g genes -p proteins -b bam_folder/*.bam -t threads -o output_folder/
[1]. Kristopher Kieft, Alyssa Adams, Rauf Salamzade, Lindsay Kalan, Karthik Anantharaman, vRhyme enables binning of viral genomes from metagenomes, Nucleic Acids Research, Volume 50, Issue 14, 12 August 2022, Page e83, https://doi.org/10.1093/nar/gkac341
[2].https://github.com/AnantharamanLab/vRhyme
[1].Zhou Z, Tran P Q, Martin C, et al. Unravelling viral ecology and evolution over 20 years in a freshwater lake[J]. Nature Microbiology, 2025: 1-15.
[2].Michoud G, Peter H, Busi S B, et al. Mapping the metagenomic diversity of the multi-kingdom glacier-fed stream microbiome[J]. Nature Microbiology, 2025: 1-14.
[3].Wang H, Sun C, Li Y, et al. Complementary insights into gut viral genomes: a comparative benchmark of short-and long-read metagenomes using diverse assemblers and binners[J]. Microbiome, 2024, 12(1): 260.
[4].Stiffler A K, Hesketh-Best P J, Varona N S, et al. Genomic and induction evidence for bacteriophage contributions to sargassum-bacteria symbioses[J]. Microbiome, 2024, 12(1): 143.
[5].Yu M, Zhang M, Zeng R, et al. Diversity and potential host-interactions of viruses inhabiting deep-sea seamount sediments[J]. Nature Communications, 2024, 15(1): 3228.