前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宏基因组多样品的混合组装

宏基因组多样品的混合组装

作者头像
SYSU星空
发布2022-05-05 13:40:03
发布2022-05-05 13:40:03
2.4K00
代码可运行
举报
运行总次数:0
代码可运行
一般来说,宏基因组测序数据量越大越有利于序列组装,要想深入了解微生物群落往往需要深度测序,然而对于项目中大批量的样品,受制于成本每个样品的测序量不会很大;此外,对于动物组织等特殊样本,去掉宿主序列后剩余的数据往往很少。为了获得更好的拼接结果、得到更多微生物序列,我们可以将项目中相似来源的测序数据进行混合组装。需要注意的是,混合组装不等于将不同样品的reads合并到一起进行组装,这样反而会给组装带来很大困扰;多样品拼接是一个不同的组装策略,他可以利用序列在不同样本的丰度相关进行聚类并延长。这里以Spades和Megahit为例进行介绍。

1

Spades

Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装。该工具在官网下载解压即可使用。

使用Spades进行多样品混合组装如下所示:

代码语言:javascript
代码运行次数:0
运行
复制
nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &

具体参数介绍详见:测序数据的组装:常用软件工具

2

Megahit

MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也可以适用于单基因组组装。其输入数据为fasta/fastq格式的reads或者其gz/bz2压缩文件。

最简便安装方法:

代码语言:javascript
代码运行次数:0
运行
复制
conda install -c bioconda megahit

MEGAHIT使用方法如下所示:

代码语言:javascript
代码运行次数:0
运行
复制
megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]
-1:双末端测序的第一端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-2一一对应
-2:双末端测序的第二端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-1一一对应
--12:混合的双末端reads文件,为fasta/q格式,多样品文件之间逗号分隔
-r/--read:单端测序的reads文件,为fasta/q格式,多样品文件之间逗号分隔
--k-list:组装的kmer size列表,支持多kmer组装,不同kmer size之间逗号分隔,可设置的范围15-255,相邻kmer size间隔必须小于或等于28,默认为21,29,39,59,79,99,119,141
--k-min:设置最小的kmer size,应小于255,必须为奇数,默认为21
--k-max:设置最大的kmer size,应小于255,必须为奇数,默认为141
--k-step:多kmer组装的kmer size间隔,应小于等于28必须为偶数,默认为12
-m/--memory:构建SdBG可以使用的最大内存,可设置0-1,也即占总内存的分数,默认为0.9
--mem-flag:构建SdBG时的内存使用模式0-最小、1适中,或者使用-m/--memory设置具体的内存,默认为1
-t/--num-cpu-threads:程序运行使用的核数
-o/--out-dir:输出结果路径,默认为./megahit_out
--out-prefix:输出结果文件的前缀,例如contig文件会是OUT_DIR/OUT_PREFIX.contigs.fa
--min-contig-len输出的最短contigs,默认为200
--keep-tmp-files:保存所有临时文件
--tmp-dir:临时文件路径set temp directory

使用MEGAHIT进行多样品混合组装如下所示:

代码语言:javascript
代码运行次数:0
运行
复制
nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微生态与微进化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档