BUSCO能利用单拷贝同源基因数据库对基因组序列的完整性进行分析。BUSCO的核心原理是调用hmmsearch将待分析的基因组(转录组序列或蛋白序列)和单拷贝同源基因数据库进行比较,最终得到全基因组(转录组或蛋白序列)对数据库中单拷贝同源基因覆盖的比率。不同物种分类具有不同的单拷贝同源基因数据库,本期以细菌的单拷贝同源基因数据库为例,评估三个株系的沃尔巴克氏菌(Wolbachia)的基因组完整性。
https://busco.ezlab.org/
编译安装需要安装其他依赖软件以及必要的python模块,十分繁琐。推荐直接使用conda安装。
### 创建一个新的conda环境安装BUSCO
conda create -n busco -y busco=5.3.2
# 列出数据框信息
busco --list-datasets
# 下载细菌数据库
busco --download bacteria_odb10
数据库网站:https://busco-data.ezlab.org/v4/data/lineages/。 可通过网站获取下载地址通过"wget"下载或者通过网站进行下载后传入服务器。
# 下载三个株系的沃尔巴克氏菌基因组
wget -O wMel_KL_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/907/525/GCF_002907525.1_ASM290752v1/GCF_002907525.1_ASM290752v1_genomic.fna.gz;
wget -O wMel_AMD_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/907/445/GCF_002907445.1_ASM290744v1/GCF_002907445.1_ASM290744v1_genomic.fna.gz;
wget -O wRi_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/022/285/GCF_000022285.1_ASM2228v1/GCF_000022285.1_ASM2228v1_genomic.fna.gz
# 解压基因组
gunzip *.gz
-i :输入FASTA格式的序列文件。可以是基因组序列、转录组序列或蛋白序列文件;
-c : 设置用于计算的线程数;
-o : 设置输出文件夹和输出文件名;
-m : 设置BUSCO运行的模式。有三个模式:geno(基因组)、tran(转录组)、prot(蛋白);
-l : 输入单拷贝同源基因数据库的路径。
## 批量运行BUSCO对三个基因组进行分析
ls *.fna | while read i ; do busco -i $i -c 4 -m geno -l busco_downloads/lineages/bacteria_odb10 -o busco_${i%.fna*}_out ;done;
## 将上一步生成的三个基因组的short_summary.txt文件移动到busco_plot文件夹内准备绘图
mkdir busco_plot
mv busco_wMel_KL_genome_out/short_summary.specific.bacteria_odb10.busco_wMel_KL_genome_out.txt busco_plot/
mv busco_wRi_genome_out/short_summary.specific.bacteria_odb10.busco_wRi_genome_out.txt busco_plot/
mv busco_wMel_AMD_genome_out/short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt busco_plot/
# 绘图
generate_plot.py -wd busco_plot/
# 主要结果信息文件
short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt
short_summary.specific.bacteria_odb10.busco_wMel_KL_genome_out.txt
short_summary.specific.bacteria_odb10.busco_wRi_genome_out.txt
# 查看结果文件(以wMel_AMD_genome为例)
cat short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt
# 结果文件信息(以wMel_AMD_genome为例)
C:78.2%[S:78.2%,D:0.0%],F:4.8%,M:17.0%,n:124
97 Complete BUSCOs (C)
97 Complete and single-copy BUSCOs (S)
0 Complete and duplicated BUSCOs (D)
6 Fragmented BUSCOs (F)
21 Missing BUSCOs (M)
124 Total BUSCO groups searched
结果解读(以wMel_AMD为例):使用的bacteria_odb10数据库中共有124个BUSCO groups,其中78.2%的BUSCO groups被完整比对上(包括78.2%单拷贝和0.0%多拷贝),4.8%部分比对上,17.0%没有比对上。通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是78.2%。
输出图片: