基因转录的过程当中,基因由DNA转录成mRNA的过程受到很多因素的调控。其中就包括了转录因子的调控。转录因子调控的一个主要的过程是转录因子和基因启动子区进行结合进而来对其表达进行调控。由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。最近,随着单细胞测序数据的增多,我们也可以在单个细胞当中研究不同系统的调控情况。所以今天就给大家介绍一个纳入了单细胞测序数据的一个可以预测基因调控网络的数据库:GRNs[http://www.grndb.com/]
对于这类纳入公共数据来进行分析的数据库,第一步还是要收集公共数据。作者从GEO以及ArrayExpress两个数据库总共收集了72个单细胞测序数据集其中包括332920个细胞。同时基于普通的RNA-seq。作者也把经典的TCGA以及GTE这两个数据库纳入了进来。
对于利用单细胞测序的数据来进行调控网络的构建主要还是通过SCENIC流程来进行构建的(具体的参考文献可见:https://www.nature.com/articles/nmeth.4463)。通过SCENIC流程,我们可以在单细胞测序当中预测到哪些转录因子调控哪些基因。为了进一步说明调控的准确性,作者又通过纳入RNA-seq来进行共表达分析。观察转录因子和基因之间是否真的存在相关性。
最后把这些结果一整理,就有了这个数据库所有的背景数据集了。
对于数据库的使用,基本还是和其他的数据库差不多。主要还是包括检索和浏览所有数据两个部分。另外,由于使用的是RNA-seq的数据。所以也可以看所有的基因的基本表达情况以及由于使用了TCGA的数据,当然也避免不了的可以看预后的情况。这里我们就简单地看一下数据库的基本操作。
在网站的主页面,有一个基本的检索功能,我可以在这里输入想要检索的转录因子或者目标基因来进行基本的检索即可。
检索的结果主要是通过一个表格来进行呈现的,里面包括了,数据来源的物种、数据类型、转录因子和靶标情况、两个基因相关分析情况、转录因子motif情况
对于检索的结果,数据库只是提供了基本的查询功能,但是并没有提供具体的下载功能。不过,数据库提供了所有数据的下载的功能 ,如果想要下载相关分析结果的话,可以下载所有的数据。
之前我们用到的很多数据库都是基于基本的测序数据而言的,这个和之前不一样的地方还是在于使用了scRNA-seq的数据来进行分析。对于SCENIC算法而言,计算量比较大,不是一般的电脑能运行下来的,所以如果想要现成的基于SCENIC算法的结果,倒是也可以使用一下这个数据库。