用途
相似之处:
找寻序列见得保守性区域
预测新序列得功能
预测蛋白质序列的结构
不同之处:
寻找突变点(替换、插入、删除)
SNP(单核苷酸多态性)
序列比对
SNP很有可能是致病的原因所在。
序列比对的积分规则
空位及空位罚分(gap and gap penalties)
无限制的引入空位,则会导致两条序列虽然相似,但实际上却无任何生物学关系,因此,需要空位罚分原则来限制,即当插入一个空位时,其相似性分值就扣掉一些。
空位
2.相似性分数
序列比对的时候,所有匹配位点得分及空位罚分的总和,得分越多,序列相似度越高
3.期望值
代表在数据库中找到具有一定相似性但实际意义上并无同源关系的可能性。
比对方式
全局比对:主要用于整体序列相似性较高的两个序列,常用needleman-wunsch算法,通过从头到尾计算,其结果反映两个比对序列所有的组成部分,即整体相似性的比较。
局部比对:主要用于整体相似程度比较低,在较小区域内有局部相似性的两个序列比对,常用Smith-watermen方法。
序列比对分类
根据比对的序列数量
两两比对: 常用blast软件,属于局部比对。
多序列比对:多于两个以上的序列比对,目的是找出序列中有保守生物学功能的共同基序。
渐进比对发,现将多个序列凉凉比对构建距离矩阵,反映序列凉凉之间的关系,然后根据矩阵产生系统进化树。
软件用:clustal X 或clustal omega
实际操作
下载软件或在线处理,这个可以直接到blast网站去下载或应用。
网站自行查看
2.特别注意blast和tblastn的应用,tblastn是手头有蛋白质序列,数据库会将留个蛋白质的转换,会得出6个序列库,最终会进行比对。
物种基因组比对
3.
一些特殊的blast
数据库的基本功能
数据基本功能
开始实习
进入ncbi
ncbi查询一段序列
查询到一段序列
序列内容
标题进入查看基因bank
最终的序列情况,这个是基因bank格式的序列
cds区域是真正的编码区
得到的蛋白质序列
FASTA格式数据库
FASTA格式的碱基序列
特点是一个连续的格式,没有任何间断。完整的格式必须有大于号开始的地方。
复制序列
开始搜索
得出结果
红色的地方是数据库相似的序列,代表一段基因,红颜色的方块是评分,序列不对齐的地方说明长度往往和对应模板位置匹配的部分,有些也许匹配不到。
列表形式展示
右侧列会显示评分的。
两两比对
具体的量两比对匹配,上面的是序列行,下列是数据库找到的。
此处可构建遗传进化树
如下:
进化树
红色表示不匹配,灰色是匹配
蛋白质比对
protein
领取专属 10元无门槛券
私享最新 技术干货