前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宏病毒组binning工具—— vRhyme教程

宏病毒组binning工具—— vRhyme教程

作者头像
用户1075469
发布2025-02-28 16:08:34
发布2025-02-28 16:08:34
33900
代码可运行
举报
文章被收录于专栏:科技记者科技记者
运行总次数:0
代码可运行

Hello,Hello小伙伴们大家好,好久没有给大家更新微信公众文了,最近小编在学习宏病毒组,其中一个和宏基因组类似的过程——binning,然后和宏基因组binning不同是,目前宏基因组binning工具数目众多,宏病毒组binning工具数目稀少,今天小编为大家介绍一款宏病毒组binning工具—— vRhyme。

软件简介

vRhyme 是一款多功能工具,用于从宏基因组数据中对病毒基因组进行binning。vRhyme 通过利用不同scaffold序列覆盖度差异(coverage variance comparisons)和对特质序列的监督学习进行binning(supervised machine learning classification),构建病毒宏基因组组装基因组(viral metagenome-assembled genomes,vMAGs)。

重要提示:vRhyme 专为处理病毒sequences/scaffolds。标准流程建议是通过病毒预测工具(如 VIBRANT , VirSorter2)从宏基因组中筛选病毒序列,再将候选的病毒序列作为 vRhyme 的输入。值得注意的是 vRhyme 也支持直接输入组装后宏基因组结果,但其对宏基因组序列的binning性能并未经过充分评估。故vRhyme 不适用于微生物分箱。

核心功能
  • 病毒宏基因组组装基因组(Binning vMAGs)
  • 自动binning优化(Automatic bin refinement)
  • 自动测序覆盖度计算与优化(Automatic read coverage calculation and refinement)
  • binning与冗余检查(Bin scoring and redundancy checks)
  • 监督机器学习(Supervised machine learning)
  • 支架去冗余(Scaffold dereplication)
  • 测序读段比对(Read alignment)
  • 开放阅读框(ORF)预测
软件安装
代码语言:javascript
代码运行次数:0
运行
复制
# 创建环境conda虚拟环境
conda create -c bioconda -n vRhyme python=3 networkx pandas numpy numba scikit-learn pysam samtools mash mummer mmseqs2 prodigal bowtie2 bwa
# 激活conda虚拟环境
conda activate vRhyme
# 从Github下载安装包,并使用pip安装
git clone https://github.com/AnantharamanLab/vRhyme
pip install ./
# 将vRhyme_machine_model_ET.sav.gz解压并copy到conda目录下
mv vRhyme_machine_model_ET.sav ~/softwara/miniconda3/envs/vRhyme/lib/python3.7/site-packages/vRhyme/models
# 测试是否安装成功,显示内容如下所示,说明软件安装成功
test_vRhyme.py
  Python Dependencies
  -------------------
  scikit-learn: Success (v1.0.2)
  numpy: Success (v1.21.5)
  numba: Success (v0.56.4)
  pandas: Success (v1.3.5)
  pysam: Success (v0.15.4)
  networkx: Success (v2.6.3)
  Program Dependencies
  --------------------
  mmseqs: Success
  samtools: Success
  prodigal: Success
  mash: Success
  nucmer: Success
  bowtie2: Success
  bwa: Success
  Machine Learning Models
  -----------------------
  NN model: Success
  ET model: Success

注意:

  1. 小编之前使用conda install -c bioconda vrhyme 虽然安装没有报错,但是在运行的过程中报错。故小编建议先创建虚拟环境,从GitHub下载安装包,使用pip install 手动安装;
  2. 必须依赖软件:Python3 (version >= 3.6)、Mmseqs2、Samtools;
  3. 必须依赖的python模块:Pandas (version >= 1.0.0)、Numpy (version >= 1.17.0)、Scikit-learn (version >= 0.23.0)、Numba (version >= 0.50.0)、PySam (version >= 0.15.0)、NetworkX (version >= 2.0);
  4. 非必须依赖软件:Prodigal、Mash、Nucmer、Bowtie2、BWA。
常用参数解读

参数

解释

备注

-h

输出帮助信息

--version

输出版本信息

-i

输入待分箱的核苷酸序列

作者建议使用先从宏基因组或病毒组组装结果中预测出的病毒scaffold序列作为输入文件,当然也可选择直接输入宏基因组组装结果。

-o

运行结果输出目录

结果输出目录必须不存在,否则软件会强制退出,无法运行。

-g

输入预测好的CDS核苷酸序列

如果输入该文件,软件不会运行Prodigal。

-p

输入预测好的CDS氨基酸序列

如果输入该文件,软件不会运行Prodigal。

-c

输入scoffold覆盖度文件

这个文件可以使用bam文件,借助于jgi_summarize_bam_contig_depths生成并使用软件内部脚本cov_table_convert.py转化格式

-l

用于binning的最短scffol长度,默认为2k

作者认为短于2kb的scoffold基因信息量不足,无法保证分箱准确性。

-b

输入比对结果bam文件,排序或不排序均可

vRhyme会根据bam文件计算序列的覆盖度,支持多个bam文件输入,如:-b bam_file_folder/*.bam。

-s

输入比对结果sam文件

vRhyme会自动将SAM转换为BAM格式。

-r

输入pair end fastq文件,支持gizp压缩

-u

输出单端fastq文件,支持gizp压缩

-v

输入read1和read2交错式出现的fastq文件,支持gizp压缩

如果按照输入的这种格式的文件,vRhyme只能调用bowtie2进行比对。

--keep_circ

是否过滤环状病毒基因组,默认为开启

--interest

提供scaffold列表,表示使用指定的scaffold进行binning

--keep_sam

保留比对过程中的sam文件

默认为ture,表示删除。

--keep_bam

保留比对过程中的为排序的bam文件

默认为ture,表示删除。

--verbose

如何输出运行日志

默认为ture,将日常同时输出到屏幕和保存在日志中。

--prefix

输出文件前缀

默认为vRhyme_。

-t

软件运行的进程数

--speed

每个进程内部使用的线程数

--aligner

如果输入是fastq文件,需要选择比对工具bwa或者bowtie2

BWA参数为mem,Bowtie2参数为--no-unal --no-discordant并能自动建索引。

--read_id

根据最低reads identity度对比对结果进行过滤

默认为97%。

--mask

计算覆盖度时屏蔽scaffold两端的特定碱基数

默认为150。

--outliers

删除覆盖率异常的的scaffold

默认为4,设置为0代表关闭这个功能。

--bin_size

每个binning中包含最小scaffold数量

默认为2。

--iter

binning算法的迭代次数,范围 10-20

默认为20。

--red

每个binning中冗余蛋白的最大数量

默认为50,表示宽松,运行binning存在yi定的污染。

--cov

某个样本中scaffold最低覆盖度

默认为0.8。

--model

选择binning的核心算法

提供三种选项,对应不同的算法策略,Neural Network, NN、Extra Trees, ET和两者相结合(默认)

--derep_only

仅执行去冗余,跳过binning流程

默认为关闭。

--method

选择去冗余方法

none(默认):关闭去冗余。longest(最长代表法):去除冗余序列,保留最长的一条代表。composite(组合序列法):合并完全相同的序列,并将重叠的序列拼接为组合序列。

实战演练
代码语言:javascript
代码运行次数:0
运行
复制
# 软件自带数据
vRhyme -i scaffolds.fasta -c coverage_values.tsv -o result -t 16
# 常用模式
vRhyme -i fasta -g genes -p proteins -b bam_folder/*.bam -t threads -o output_folder/
结果文件说明
  • 主要输出结果
    • log_vRhyme_scaffolds.log:vRhyme运行日志;
    • vRhyme_best_bins.#.membership.tsv:记录了每个高质量分箱(viral MAG)中包含的 scaffold(支架)列表;
    • vRhyme_best_bins.#.summary.tsv: vRhyme 输出的高质量binning统计文件;
    • vRhyme_best_bins_fasta/:高质量病毒宏基因组组装基因组(vMAGs)的目录(基因组文件,CDS序列,蛋白质文件)
  • 其他输出结果
    • (-i).prodigal.faa/(-i).prodigal.ffn:使用Prodigal对输出的病毒序列进行基因预测,产生出来的CDS核苷酸序列和蛋白质文件
    • (-i).circular.tsv: vRhyme 判断的环状病毒基因组列表文件
    • vRhyme_machine_distances.tsv:vRhyme 分箱流程中 机器学习模型的输入特征文件
注意事项
  1. 使用蛋白质冗余作为评估病毒宏基因组组装基因组(vMAG)污染的指标; 基于病毒基因组的低冗余蛋白特性,vRhyme提出以同源蛋白冗余数(>50%同源为冗余)作为污染指标:0-1为洁净vMAG,2-5需谨慎验证,>6高度疑似污染(核质巨DNA病毒/NCLDVs等超大基因组除外)。
  2. vRhyme的分箱结果通常以2-3个scaffold为主,极少超过4个scaffold;
  3. 并非所有病毒基因组都需要分箱。某些序列可能已具备足够长度(如接近完整的线性/环状基因组)或高组装质量,直接作为单个序列即可反映病毒的真实特征;
  4. 前噬菌体(即整合于宿主基因组的温和噬菌体)的bining分析中面临挑战,主要源于整合在宿主基因组上;
  5. 分箱中同时存在裂解和溶源成员可能是由于基因组片段化或软件误判,需结合整合酶基因、原噬菌体来源等特征综合判断污染风险。
参考文献

[1]. Kristopher Kieft, Alyssa Adams, Rauf Salamzade, Lindsay Kalan, Karthik Anantharaman, vRhyme enables binning of viral genomes from metagenomes, Nucleic Acids Research, Volume 50, Issue 14, 12 August 2022, Page e83, https://doi.org/10.1093/nar/gkac341

[2].https://github.com/AnantharamanLab/vRhyme

参考范文

[1].Zhou Z, Tran P Q, Martin C, et al. Unravelling viral ecology and evolution over 20 years in a freshwater lake[J]. Nature Microbiology, 2025: 1-15.

[2].Michoud G, Peter H, Busi S B, et al. Mapping the metagenomic diversity of the multi-kingdom glacier-fed stream microbiome[J]. Nature Microbiology, 2025: 1-14.

[3].Wang H, Sun C, Li Y, et al. Complementary insights into gut viral genomes: a comparative benchmark of short-and long-read metagenomes using diverse assemblers and binners[J]. Microbiome, 2024, 12(1): 260.

[4].Stiffler A K, Hesketh-Best P J, Varona N S, et al. Genomic and induction evidence for bacteriophage contributions to sargassum-bacteria symbioses[J]. Microbiome, 2024, 12(1): 143.

[5].Yu M, Zhang M, Zeng R, et al. Diversity and potential host-interactions of viruses inhabiting deep-sea seamount sediments[J]. Nature Communications, 2024, 15(1): 3228.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 软件简介
  • 核心功能
  • 软件安装
  • 常用参数解读
  • 实战演练
  • 结果文件说明
  • 注意事项
  • 参考文献
  • 参考范文
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档