通过Hi-C数据可以分析TAD,chromatin loops等染色质空间结构的基本单元,加强我们对染色质三维结构的认知。面对海量的Hi-C数据,如何高效完成数据分析成为了一个挑战。
目前针对Hi-C数据的分析也有很多的软件可以用,而juicer无疑是使用的最广泛的软件之一。该软件的源代码托管在github上,网址如下
https://github.com/aidenlab/juicer
对应的文章发表在cell杂志上,链接如下
https://www.cell.com/action/showPdf?pii=S2405-4712%2816%2930219-8
如下图所示,和其名字一样,juicer就像是一款榨汁机,输入Hi-C产生的原始fastq数据,经过层层加工,直到产生有效的数据分析结果。在整个数据分析过程中,使用者不需要高深的编程技巧,只需要一些基本的操作规范,人人都可以使用该软件来分析Hi-C数据。
juicer作为一款强大的分析软件,有以下几个特点
该软件按照功能拆分成了三个大的分析步骤,依次运行即可得到最终的分析结果
完整功能示意如下
juicer采用ArrowHead算法对原始的交互矩阵进行转化,并预测TAD拓扑关联结构域,采用HiCUUPS算法识别染色质环chromatin loops。和其他Hi-C数据处理软件相比,juicer的功能更为齐全
juicer独创了一种名为hic
的文件格式,用来存储Hi-C数据的相关信息,这种格式是一种高度压缩的二进制文件格式,在以下链接可以查看这种格式的详细信息
https://github.com/theaidenlab/juicebox/blob/master/HiC_format_v8.docx
在后续的文章中,会详细介绍该软件的用法。