首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货时间|序列比对,科研必备的几款软件!

本文作者:Cream 转载留言即可

作为一名生物科研狗,在饱受实验折磨的同时,相信大家也都多少会受到一些生信软件的“宠爱”。比如需要做序列比对,却不知道该用什么软件,不知道怎么设参数、不懂怎么读结果。

今天我们详细地给大家介绍一款必会比对程序BLAST的用法,再给大家说一说几种常用比对软件的优缺点,方便大家自己选择。

BLAST(Basic Local Alignment Search Tool)可以说是短序列比对中最常用的比对工具了,它不仅支持核酸和蛋白的双序列比对,而且可以在蛋白质数据库或DNA数据库中进行相似性比较,找到与查询序列相似的序列。

NCBI上的在线BLAST具有四种功能模块:Nucleotide BLAST(核酸序列比对到核酸库)、Protein BLAST(蛋白序列比对到蛋白库)、BLASTX(核酸序列比对到蛋白库)、TBLASTN(蛋白序列比对到核酸库)。

使用方法:

B可以选择不同的比对选项,对应于我们前面介绍的五种功能

D可以接受各种格式的查询序列,可以一个序列号(NM_000249)或者是FASTA序列

E可以限定查询序列中的某个片段,比如“from 200 to 600”就是查询200-600bp位置的序列

G可以选择进行多序列比对,并且可以更改序列输入方式

A可以选择所要查询的数据库

B可以输入物种名称,它会显示下拉条目可以进行选择

C可以用来排除一些不想要的信息

D对于特定数据库可以进行一些搜索限制,比如输入 “biomol_mrna[prop] AND 500:1000[slen]”可以限制搜索500-1000bp长度的序列

E可以根据需要选择不同的速度或者灵敏度

F按钮执行BLAST搜索

G可以打开一个折叠页面,可以进行更为详细的参数设置(如下图)

H可以设定数据库中最大的匹配目标数

I允许BLAST自动优化30个碱基/残基或更短的查询设置

J是一个期望阈值的设置,可以过滤掉不太重要的匹配

K设置初始序列匹配的大小,设置越小越敏感

L限制了最大匹配数,默认设置“0”表示无限制

F和G是得分参数,对BLAST的敏感度也会有影响,不过一般情况下可以设为默认值。

比对结果:

左边图中显示一些关于比对的信息

JobTitile默认情况下显示第一个查询的序列id,也可以提交前对其进行自定义。

RID显示分配给此搜索的唯一标识符,Downlod ALL可以将完整的搜索结果保存为所需的格式XML (XML2)、JSON和CSV

Program列出进行的搜索,在本例中为BLASTN提供参考文献

Database是搜索的数据库,可以查看详细信息

Query ID显示结果的查询序列id

右图中的可以选项参数用于过滤结果

Organism允许设置物种名

Percent Identity 允许设置同一性程度进行过滤,比如94.74% 到94.76%

E Value允许通过期望值进行过滤,比如设置0.0001 到 5e-120 (5x10-120).

Description是BLAST结果默认显示选项,可以通过旁边的按钮切换

以上结果是默认按E值由高到低进行排序的,单击后面的每条accession号可以直接跳转到对应的核酸库或蛋白库中。

Graphics可以链接到基于图形序列的匹配显示(如下图)

Distance tree of results可以以距离树的形式显示比对结果(如下图),如果比对的是蛋白序列的话还会有一个Multiple alignment用于系统发育分析。

Alignments选项下包含查询序列和数据库序列之间的详细比对信息。

BLAST功能强大,使用方便,但是也存在一些缺点,它的分析速度比较慢,比对结果现不够直观,不利于后续的处理,比对不能显示基因内含子、外显子及基因定位等等。

BLAT(The BLAST-Like Alignment Tool)也是一款常用的序列比对工具,对于DNA序列,BLAT是用来设计寻找95%及以上相似至少25个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。

BLAT也存在着一定的局限性,比如用于远亲缘物种间的核酸序列比对时,比对精度就不够高,建议使用专门为此用途开发的Blastz软件;对于少量的蛋白质比对任务(如数条或数十条),在速度和精度上Blastp均优于Blat;另外,Blat在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片,一步分析确认。

几个常用的多序列比对软件

DANMAN是一个简单常用的核酸序列分析软件,它支持多序列比对、序列同源性分析、限制性酶切位点分析、PCR引物设计、质粒绘图等多种功能,并且是非常友好的Windows界面、软件占用内存小、兼容性也比较好,DNAMAN可以说是分子生物学人的必备工具之一了。

Clustal是基于渐进比对的多序列比对工具,有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlW,clustalX等。ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树,是最常用的是多序列比对。但是由于它采用一种渐进的比对方法,不能保证能够得到最优的比对,而且速度也不够快。

Muscle是一款速度最快的比对软件之一,在速度和精度上都优于ClustalW,可以比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。

它采用迭代方法进行比对运算,每一次最优化过程就是迭代过程,通过不断地使用动态规划算法重排来纠正这种错误,同时对这些亚类群进行比较以获得所有序列地全局比对。但是Muscle地准确度降低了,并且对于内存的要求较高。

MAFFT做多序列比对的精确度和速度都是比较高的,在使用时需要调节的参数也比较少。目前的版本提供两种比对方法,渐进方法和迭代细化方法,也包括更快地对大量序列进行比对的选项、更高精度的比对、非编码RNA序列的比对等。MAFFT也有在线版和本地版。

以上是给大家介绍的比较常用的一些比对软件,大家想学习哪个软件可以留言,我们可以推出详细的使用教程并附上程序链接或软件包。除了上面介绍的这些,还有很多对应于不同功能的比对软件,比如用于基因组比对的比对软件、用于测序数据拼接的比对软件等。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201209A009IM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券