首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘专题四

接着上一期,我们找到差异基因以后,我们希望找到这些差异基因的功能,看它富集在哪些功能上,我们就可以做一下GO的富集分析。

一般GO(Gene oncology)按照生物途径(Biology Process),分子功能(Molecular Function)和细胞定位(Cellular Location)对基因进行注释和分类。通过对差异表达基因进行GO terms富集度统计学的分析,计算出差异基因GO term的p-value和p-value的FDR值(q-value),定位差异基因最可能相关的GO term。

这里我再给大家推荐一款软件,叫cytoscape,我们会用到其中一个插件叫BINGO,那好,我们就开始我们今天的学习。

首先打开界面后,我们依次点击APPs—APP manager,在弹出的对话框里面我们打入bingo,系统就会自动搜索,再点击安装该插件。

插件下载完成后,我们点击APPs—BINGO,则出现了下面这个界面。

在这里,我们在cluster name中命名为dna,然后点击编号为2的那一行中的Paste Genes From Text,把我们之前的找到的差异基因复制黏贴在空白框内。在collect oncology file中我们选择GO Full,该选项其实就包括一开始我们说的GO的三部分:生物途径(Biology Process),分子功能(Molecular Function)和细胞定位(Cellular Location)。

由于我们的基因是来源于老鼠,那在编号为4那一行选择Mus musculus。在最后一行点击Check box for saving Data,然后再点击Save BiNGO Data File,将输出的文件保存在自己指定的地方。这里我们选择保存在桌面。最后我们点击Start BiNGO。

我们用excel打开桌面上刚刚保存的文件,会发现每一条富集通路是按照p值由小到大依次排列,其中第H列表示该通路所涉及的生理病理过程,而该列的后面指的是我们之前输入的富集在该条通路上的部分基因。

这里我们就根据我们所要研究的方向,从这么多通路里面选择自己感兴趣的进行进一步研究。

除了上面那张表格输出外,cytoscape给我们自动生成了一张有向无环图,其中分支代表包含关系,箭头方向从上之下所定义的功能范围越来越小,并通过包含关系,将相关的GO Term一起展示,颜色深浅代表富集程度,越深富集水平越高,反之,则越低。

然后对于结果输出,我们依次点击左上方的File—Export—Network as Graphics,一般我们选择保存文件的格式是PDF。

好了,到这里我们这一讲就告段落了,希望大家再接再厉,反复练习,一起将数据挖掘到底!下一期再见!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171223B03GRS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券