之前在对最基础的高通量测序数据分析当中,提到了对于差异的富集分析[[6.富集分析二三事]]。其中富集分析需要基因注释数据库作为背景数据。常用的背景数据库就包括KEGG以及GO。之前我们对[[KEGG-基因通路相关数据库]]进行了简单的介绍。所以今天就来了解一下鼎鼎大名的GO ONTOLOGY数据库:Gene Ontology Resource: http://geneontology.org/
GO ONTOLOGY是一个基于已经发表的的研究结果,对基因功能进行注释的数据库。随着研究的深入,每一个基因的功能也在扩展。GO数据库的内的信息也在逐步的增多。2022-05最近的数据库中,包括了5183个物种的1473200个基因注释结果。
GO ONTOLOGY将物种中基因的功能分成了三个部分:分子功能 (Molecular Function, MF);细胞组分 (Cellular Component, CC);生物过程 (Biological Process, BP)。
其中,BP表示生物反应的宏观过程,CC表示细胞内发挥功能的具体位置,MF则表示在细胞微观层面发挥的作用。比如TP53基因,其BP为「细胞周期调控」,CC是「染色质」,MF包括「转录顺式调节区结合」。
除了将所有的GO条目分成三个部分之外,每一个部分当中的条目之间也存在上下关系。比如「细胞周期调控」这个条目就属于「细胞周期」的大条目当中
在GO ONTOLOGY中,可以直接输入想要检索的内容 (某一个关键词或者基因名)。比如,我们想要查找和凋亡有关的GO数据。就可以直接输入apoptosis
检索之后,首先显示了这个关键词的有关的GO信息以及和关键词有关的基因。👇的图中可以看到和凋亡有关的GOTerm有499个。和凋亡有关的基因有2755个。
点击每一个内容,也就可以看到详细的结果。结果左边是一个筛选界面,右边则是具体结果界面。在筛选结果,点击+ 可以添加筛选条件。比如,添加CC的筛选。
经过筛选发现,有多个复合体是和凋亡有关。点击具体的Term就可以看到详细结果。比如:ASAP complex。在具体界面,可以看到关于这个条目的具体描述
另外也可以和这个条目有关的基因。结果和👆的结果显示一样。同样可以进行筛选
以上就是关于GO ONTOLOGY数据库的主要介绍。通过对GO ONTOLOGY的介绍,首先可以了解关于BP,CC以及MF的具体信息。这样对于之后的富集分析结果就可以更有针对分析。
除此之外,对于在寻找某一过程的相关基因的时候,其实也可以通过GO进行检索。这样也就可以更好寻找相关的基因集来进行后续分析。