本地Blast-图文教程
本地Blast-图文教程:
一、本地Blast用途介绍
二、本地Blast的安装
程序获取
安装程序
用户环境变量设置
三、Blast本地数据库的构建
数据库的获取
数据库的格式化
四、Blast的使用方法
query序列的准备
比对脚本的准备
比对结果的说明
一、本地Blast用途介绍:
在我们平时的学习、实验、和数据分析的时候经常会遇到将某条序列或者某个fasta文件比对到某个数据库的情况。虽然现在在线做序列比对的数据库网站非常的丰富, 但有时候受到网速的制约和需要根据自己的实验目的进行个性化的数据比对时,我们还是会用到本地的Blast。下面就详细介绍一下本地的Blast的安装及使用。
二、本地Blast的安装:
1、程序安装
网站上提供了Windows、Linux、macOS等版本的本地Blast,请下载与自己电脑系统相适应的版本。不知道自己电脑版本的朋友,可以右击“计算机”,选择“属性”查看系统类型。这里我们用ncbi-blast-2.7.1为例。
2、安装程序
下载完成后,双击.exe安装程序的进行安装,默认安装到C盘,但大部分人都不喜欢把软件安装到系统盘,所以我们在安装的过程中设置安装到G:\blast-2.7.1盘,并且生成bin和doc两个子目录,其中其中bin是程序目录, doc是文档目录,这样就安装完成。然后在目录下新建文件夹,重命令为。
3、用户环境变量设置
右键点击“我的电脑”-属性,然后“高级系统设置”选项-“环境变量”,在用户变量下方点击“新建”-变量名:BLASTDB,变量值:G:\blast-2.7.1\db(即电脑上安装好后新建的db文件夹的路径)。在系统变量下方“Path”添加变量值:G:\blast-2.7.1\bin(即电脑上bin文件夹位置)。下图的GIF是我设置环境变量的过程,因为我之前已经设置过了,所以大家可以参考看看。
三、Blast本地数据库的构建
1、数据的获取
直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名)。我们做小麦族的基因组、cds、pep序列以及gff3的注释文件主要是从EnsemblPlants上下载,网址:
2、数据库的格式化
2.1我们从EnsemblPlants上下载拟南芥蛋白数据库,下载方法如图所示。
2.2我们将下载的蛋白质数据解压到G:\blast-2.7.1\db中,如图所示。
2.3在db文件夹中未选中任何目标的情况下,安住,在文件夹空白处右击鼠标,选择,打开如图所示窗口。我用的是win10的系统可以通过这种方式快速进入db文件夹的位置,如果是其他版本的windows系统,可能需要通过运行cmd进入db文件夹所在的位置。
打开命令窗口后输入脚本:
其中为你要格式化的数据库的名称,根据你自己的数据库的名称进行改动,记得加上后缀名.fa;dbtype后的表示数据库的类型,prot表示氨基酸序列的数据库,如果是核苷酸序列则用nucl。命令行中数据库格式化完成后显示下图。
而在db文件夹下,则会多出一系列文件。 如图
四、Blast的使用方法
1、query序列的准备:
在G:\blast-2.7.1文件夹下创建的文本文件,将需要查询到的序列以fasta格式保存到中,我们已两条拟南芥的蛋白序列为例。
2、比对脚本的准备:
在G:\blast-2.7.1文件夹下创建的文本文件,使用blast的脚本:
相关参数说明:
程序执行命令,exe 前的程序根据自己的需要而换,包括blastn,blatp,tblastx等bin文件夹中所包含的程序;
后面选择你所要用的程序,blastn,blatp,tblastx 等;
后接查询序列的文件名称;
后接格式化好的数据库名称;
后接要输出的文件名称及格式,格式形式包括0-10,其中6和0最常用,可以自己尝试。
保存后再将重命名为,此时已经将一个文本文件修改为windows中的cmd命令,双击即可运行。
3、比对结果说明
out.txt可以拖拽值Excel中打开,输出的文件是不包括表头的。
每一列分别表示:
A:Query_id
B:Subject_id
C:Identity Align_length
D:Miss_match
E:Gap
F:Query_start
G:Query_end
H:Subject_start
I:Subject_end
K:E_value
L:Score
以上便是本次分享的Windows系统下本地Blast的安装及使用全部教程的内容。
领取专属 10元无门槛券
私享最新 技术干货