IgBlast是NCBI设计开发的一种专一的blast工具,特定用于比对抗体( immunoglobulin ,IG)或T细胞受体( T cell receptor,TR)序列。
IG和TR的结构类似,都是由2条轻链和2条重链构成,每条链可以分为可变区(variable domain)和恒定区(constant domain)。可变区还可以进一步分为骨架区(FR)和互补作用区(CDR)。
IG或TR识别抗原的关键在于可变区的高度可变性,这种可变性是由“基因重排”机制产生。
人类的抗体或TR序列主要有3个基因座位编码:
IGH:The immunoglobulin heavy locus,位于染色体14,包含重链的染色体序列
IGK:The immunoglobulin kappa (κ) locus ,位于染色体2,包含部分轻链序列
IGL:The immunoglobulin lambda (λ) locus ,位于染色体22,包含剩余的轻链序列
这3种类别的轻链和重链也有多种基因片段组成,每个片段有多种拷贝,这些拷贝之间的重排就形成了繁复多样的IG和TR。
对于重链而言:包含2个恒定区基因序列 Cμ 和Cδ、 44 个V基因、27 D基因、 6 个J基因。
对于轻链:包含2个 恒定区基因序列 Cμ 和Cδ,以及多个V、J基因,但是没有D基因。
IgBlast可以识别一个IG或TR序列的原始V、D、J基因,分析这三种基因的结合细节、找到FR和CDR的边界。Blast程序也可以进行IG或TR比对,但是由于IG或TR序列的特殊性,如不同的基因特征长度,D基因至多10bp而V基因可达290bp,因此一个IG或TR其实需要多种不同参数的Blast程序进行比对,最后手工合成比对结果,不但繁琐而且易出错,但是使用IgBlast就可以快速高效的完成序列比对。
Igblast的安装
同Blast一样,IgBlast也可以使用网页工具https://www.ncbi.nlm.nih.gov/projects/igblast/,使用方法同Blast大同小异。
而这里主要是说的本地化IgBlast的安装,以human的IG序列比对所需要的Igblast安装配置为例。
1. 下载并解压igblast,并检查文件的md5
2. 下载所需要的optional_file文件及internal_data
IgBlast的安装必须有V(D)J基因数据库文件和 internal_data文件。V(D)J基因数据库文件使用IMGT数据库(见第3步)。
可选的文件是optional_file,optional_file是用于注释V基因的类型及编码区开始、结束位置等信息。
3. 下载并配置IMGT数据库
这里是human的数据库安装,其他物种类似。IMGT数据库的配置需要4步:
下载
IgBlast的README文件中注明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下载IMGT数据库,而实际上这个页面已经失效了。
正确的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。
合并文件
将多个V基因文件合并成一个V基因文件,J做同样处理,D只有一个,不需要合并。
修改序列名
使用NCBI提供的edit_imgt_file.pl将数据库文件中的序列名称从IMGT注释修改为基因名称。
edit_imgt_file.pl文件的地址为ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl
创建blast数据库
使用makeblastdb将V(D)J数据库创建为blast数据库,这个工具在igblast安装包解压后的ncbi-igblast-1.8.0文件夹下。
运行后就会产生18个数据库文件,V、D、J各6个。
具体过程如下:
Igblast使用
有以下人源BCR序列,使用igblast比对工具查看其由哪一个V,D,J基因重排而成:
1. 比对过程:
先将上述序列保存为BCRseq.fa文件,然后使用./igblastn进行比对即可。
比对命令为./igblastn -query BCRseq.fa -show_translation -outfmt 3。
igblastn命令有以下参数与注意事项:
由于已经将IGMT数据库文件的文件名指定为了human_gl_V、human_gl_D、human_gl_J的标准形式,不需要再使用-germline_db_V -germline_db_D -germline_db_J用于指定V、D、J的数据库文件。
使用optional_file(aux扩展名)可以找到v基因的编码区开始位点、J基因类型以及CDR3结束位点。需要将optional_file文件放置于optional_file文件夹下,否则需要使用参数-auxiliary_data指定aux文件所在。
-organism 指定物种,默认是human
-ig_seqtype 指定TR代表进行TR比对,需要TR数据库
-show_translation 显示翻译的蛋白质序列
-domain_system 可以指定kabat与imgt
-outfmt输出格式,有三种格式3、4、7
2. 具体操作如下:
3. 结果
默认每个基因会输出3个最佳的比对序列,从图示可以看出此序列是抗体的重链(有D基因),最可能的V、D、J基因为IGHV1-69*06、IGHD3-16*01、IGHJ4*03。
输出结果中还有很多其他细节。
image-1
参考资料
IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/
IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2
V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination
还有更多文章,请移步公众号阅读
生信技能树公众号二维码
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。
生信菜鸟团公众号二维码
领取专属 10元无门槛券
私享最新 技术干货