前一段时间,boss将小麦茉莉酸代谢途径中的一个关键酶基因家族的鉴定工作交给了我这个生信小白(本科生)。硬着头皮接下这个工作,然后就开始了漫长的探索之路。在经历了“煎熬”后,终于完成了这个工作。现在将经验分享给大家。
首先,要知道一些常用数据库。比如ncbi数据库、pfam数据库、EnsemblPlant数据库等。当然也不能忘掉各种植物的专有数据库:小麦数据库(URGI)、拟南芥数据库(TAIR)等。关于数据库的用法,我觉得只要知道如何下载自己所需的序列就可以了。
其次,在Windows操作系统之下,要学会几个简单的dos命令:
cd.. 返回上级目录
cd \ 返回盘根目录
d: 进入d盘
cd \sr 进入sr文件
在了解了这些基础知识后,进行opr基因家族的成员鉴定。
老师给我的信息就是“x是小麦茉莉酸代谢途径的一个关键酶基因家族,” 。我经过一番网上搜索,终于找到了方法。
(1) 在数据库下在拟南芥的opr蛋白质序列(先在ncbi数据库上搜索 x ,获得关于x 的信息,但并没有找到拟南芥的 x ,进入拟南芥数据库tair 输入关键信息得到拟南芥的 x ),在小麦数据库(urgi)下载其全蛋白质序列,当然你也可以在Ensembl Plant数据库下载小麦数据库TGACv1。
(2)在pfam数据库找到对应的pfam 号(个人经验是直接用拟南芥的opr蛋白质序列去搜),下载其alignments文件,格式为sto。
(3)按 Win+R ,输入 cmd ,回车,进入dos界面,直接输入 cd\ ,回车,进入c 盘根目录
然后,输入 F: 进入F盘根目录(我安装在F盘),输入 cd\hmmer ,回车进入hmmer程序。
(4)使用的第一个程序hmmbuild ,该程序可以建立隐马科夫模型,语法如下:hmmbuild输出文件名 .hmm pfam下载的alignments文件
(5)使用的第二个程序hmmsearch,语法如下:
hmmsearch 隐马科夫模型文件 小麦蛋白质数据文件 (>结果输出文件,可以不选)
(6)将初步选出的结果进行筛选,筛选方法有提交在线网站ncbi,看是否存在该基因蛋白质结构域,或者直接blast 搜出的结果,剔除不同的蛋白质序列。
当然,有些大神是不需要pfam数据库的,他们可以自己用r语言建立隐马科夫模型。
PS:除了以上方法呢,现在我们小麦的参考基因组也释放了,基因的注释信息也有了(https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Annotations/v1.0/iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip)。打开文件就可以查询了。
这个网站也可以查询https://urgi.versailles.inra.fr/WheatMine/begin.do
领取专属 10元无门槛券
私享最新 技术干货