生信分析是筛选目标基因和确定研究方向非常好用的方法,但是很多时候,系统的分析流程走下来,我们还是不能把筛选出来的基因和所研究的疾病挂上钩,我们很难说我们的结果是有意义的,想进一步开展实验心里也是没个底儿。
像下图这样的热图,既分析出了差异基因,又对差异基因进行了功能上的注释,结果就很赞了。
上图的注释中,Ion channel,Receptor什么的或许通过GO和KEGG注释还能得到一些信息,但是像Known pain link,这个要怎么说?你说known就known?文本挖掘或许是个不错的手段,但是真正操作起来还是很麻烦,如何去除其中看起来有关而实际上无关的基因也是非常费神的。
其实NCBI中有很多非常好用的数据库,比如Gene这个数据库
搜索pain,便可以得到与pain相关(Known pain link)的基因,在右侧可以选择物种
调成每页显示200条信息,把相关的基因都复制粘贴出来,在EXCEL里用vlookup函数和我们生信分析的结果取个交集,就完成注释啦!((工具篇):S4E07: 用Excel就能实现的几个逆天功能!)
注释完成后,可以用R语言ggplot2包画图,也可以试试这个在线的工具EasyChart (http://www.ehbio.com/ImageGP/index.php/Home/Index/index.html), 之前我们介绍过高颜值的在线绘图工具推荐,这个网站目前已经全部更新完成。
通过这样一张热图,我们可以了解哪些疾病关联基因的差异表达比较明显,聚类分析则反映出哪些基因之间存在联系,从中我们挑选出合适的目标基因。
如果你的研究方向是遗传病,那可以试试OMIM,OMIM (Online MendelianInheritance in Man)是人类孟德尔遗传病数据库,在NCBI中选择OMIM数据库即可使用。
比如我们搜个parkinson,搜索结果中PARK12是表型名称,右侧还可以查看序列标记位点(UniSTS),以及单核苷酸多态性(dbSNP)。
那么%300557这样的代号是什么意思呢?先说前面这个%:
OMIM中每一条记录都有一个自己的6位数字代码:
所以说%300557表示的是这条信息记录了X染色体关联的基因位点,已经得到证实,但是潜在的分子基础还有待研究。
更加详细的信息可以点开该条目查看,包括了关联基因,基因位点等等。
其它的疾病数据库,比如MalaCards,Lncrnadisease(lncRNA相关)疾病研究找不到方向怎么办?,DisGeNET等也可以给我们提供疾病相关的信息。
关注后获取《科研修炼手册》1、2、3、4、5,基金篇精华合集
领取专属 10元无门槛券
私享最新 技术干货