1
Spades
Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装。该工具在官网下载解压即可使用。
使用Spades进行多样品混合组装如下所示:
nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &
具体参数介绍详见:测序数据的组装:常用软件工具
2
Megahit
MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也可以适用于单基因组组装。其输入数据为fasta/fastq格式的reads或者其gz/bz2压缩文件。
最简便安装方法:
conda install -c bioconda megahit
MEGAHIT使用方法如下所示:
megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]
-1:双末端测序的第一端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-2一一对应
-2:双末端测序的第二端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-1一一对应
--12:混合的双末端reads文件,为fasta/q格式,多样品文件之间逗号分隔
-r/--read:单端测序的reads文件,为fasta/q格式,多样品文件之间逗号分隔
--k-list:组装的kmer size列表,支持多kmer组装,不同kmer size之间逗号分隔,可设置的范围15-255,相邻kmer size间隔必须小于或等于28,默认为21,29,39,59,79,99,119,141
--k-min:设置最小的kmer size,应小于255,必须为奇数,默认为21
--k-max:设置最大的kmer size,应小于255,必须为奇数,默认为141
--k-step:多kmer组装的kmer size间隔,应小于等于28必须为偶数,默认为12
-m/--memory:构建SdBG可以使用的最大内存,可设置0-1,也即占总内存的分数,默认为0.9
--mem-flag:构建SdBG时的内存使用模式0-最小、1适中,或者使用-m/--memory设置具体的内存,默认为1
-t/--num-cpu-threads:程序运行使用的核数
-o/--out-dir:输出结果路径,默认为./megahit_out
--out-prefix:输出结果文件的前缀,例如contig文件会是OUT_DIR/OUT_PREFIX.contigs.fa
--min-contig-len输出的最短contigs,默认为200
--keep-tmp-files:保存所有临时文件
--tmp-dir:临时文件路径set temp directory
使用MEGAHIT进行多样品混合组装如下所示:
nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &