Hi-C图谱和染色质结构模型的对应关系如下 ? 早期研究中利用1MB的Hi-C图谱 ,定义了每条染色质包含了A和B两个compartments。 对每条染色质的Hi-C图谱进行不同算法的聚类分析,除了19号染色质外,都得到了5个cluster,对于19号染色质,得到了6个cluster。 对于染色质环,定义为Hi-C图谱中互作频率比周围相邻区域都高的格子区域,这样的区域称之为peak , 而对应的染色质区域称之为peak loci,如下图中蓝色圆点标记的区域 ? 对染色质环对应区域富集的各种mark进行分析,发现其富集CTCF等转录因子, 如下图所示 ? 对于染色质环的空间结构,提出了如下模型 ? 通过构建5kb以下分辨率的Hi-C图谱,可以识别染色质环这种染色质结构单元。
chromosome conformation capture称之为染色质构象捕获,简写为3C, 是一种生物化学手段,可以通过实验手段来研究空间结构上相近的染色质,本文简单介绍下3C的实验过程和原理。 可以分成以下4个步骤 crosslink chromatin, 染色质交联。 通过甲醛固定细胞,可以在空间结构相邻的染色质片段之间产生共价氢键 digest crosslinked chromatin, 采用DNA限制性内切酶消化染色质,在酶切位点会形成粘性末端 ligation , 连接,通过DNA连接酶链接粘性末端 reverse crosslinking, 反交联,用蛋白酶消除DNA的交联状态 通过以上步骤处理之后,可以得到不同染色质片段连接在一起的DNA,这样的片段是一个嵌合体 通过实验处理,将三维结构上相近的染色质转换成了一维的DNA片段,所以这一技术称之为染色质构象捕获。
随着更高分辨率的显微镜的发明,科学家对于细胞组成的不断深入,于此类似,对于染色质空间结构的认知也是一个分辨率不断提高的过程。 对于染色质在细胞核内的分布,最早提出的概念为chromosome territories,翻译成染色质疆域,简写为CT,也有叫做染色质边界的。 这个概念指的是染色质在细胞核内分布的并不是随机分布的,而是不同染色体占据不同的空间。科学家通过染色体损伤实验证明了这一现象,如下图所示 ? 左侧的图代表染色质疆域分布模型,右侧图代表染色质随机分布模型。通过激光造成基因组的局部损伤,如果随机分布,则受损区域会分布在多个染色体上,如果是疆域模型的话,则只会集中在部分染色体。 染色质疆域是科学家对染色质空间结构认知的第一步,在此基础上,随着染色质构建捕获技术的发明和发展,人们对染色质空间结构的认知不断加深,相继提出了拓扑结构域TAD,染色质环等更高分辨率的构成单元,示意如下
Hi-C技术的出现推动了三维基因组学的发展,利用Hi-C技术,科学家不仅证实了染色质疆域的存在,而且进一步发现了更多染色质的三维特征。 对相关系数矩阵进行PCA降维分析,在第一主成分PC1轴上,可以将染色质区域明确分成两个部分,称之为A/B compartment。对应下图Eigenvector正负两个部分 ? 包含的基因较多,对应的基因表达量相对较高,H3K36me3和DNA超敏位点的信号也相对较高,这些特征都表明这些区域是更加开放的,可接近的,转录激活的区域,将这个区域定义为A compartment, 对应开放染色质区域 ;而负数对应区域包含的基因个数较少,含量也低,将其定义为B compartment, 对应封闭染色质区域。
3DIV全称如下 3D-genome Interaction Viewer and databse 是一个染色质空间互作的数据库,通过该数据库可以查询与某个感兴趣的染色质区域互作的所有染色质片段信息,是一种 对于输入的特定染色质区域,首先是记录了hi-c图谱中与之互作的染色质区域,其次提供了该区域内各种组蛋白修饰的信号分布,对应的基因和位于该区域内的疾病相关的snp位点。 Interaction Table 该模块用于查询某段染色质区域对应的互作信息,支持输入染色质区域,基因名称,rs号3种数据格式,查询结果如下所示 ? Comparative interaction visualization 该模块用于比较多个样本中染色质互作信息,结果示意如下 ? 通过该数据库,可以检索和查看基于hi-c数据的染色质互作信息。
染色质免疫沉淀技术是目前唯一研究体内 DNA与蛋白质相互作用的方法。 染色质断裂后,须按一定比例留取部分染色质溶液作为 Input DNA 用作内对照;目的抗体沉淀蛋白 DNA 复合物时,还应同时设立阳性抗体和阴性抗体对照,只有将目的抗体的结果与阳性及阴性抗体的结果互相比较 Input 对照不仅可以验证染色质断裂的效果,还可以根据 Input 中的靶序列的含量以及染色质沉淀中的靶序列的含量,按照取样比例换算出 ChIP 的效率,所以 Input 对照是 ChIP 实验必不可少的步骤 交联时间太长,细胞与 MN 酶比例太大都会造成染色质片段过长,这时需要缩短甲醛交联的时间,交联时间一般控制在 5-60min,交联时间过长,细胞染色质难以破碎,造成片段过长,影响 ChIP 结果,并且实验材料也容易在离心中丢失 染色质免疫沉淀所选择的目的蛋白的抗体是 ChIP 实验成功的关键。
根据这个模型,沉默的异染色质通常被描述为30纳米和120纳米的纤维。这种分层折叠模型基于纯化DNA和核小体形成的体外结构,以及在去除其他组分后观察到的经渗透处理的细胞中的染色质纤维。 不幸的是,迄今为止还没有一种方法能够通过完整细胞的大型3D体积清晰地可视化和重建DNA和染色质的超微结构。 结果 ChromEMT技术可以在连续的切片中解析单个染色质链、异染色质区域和有丝分裂染色体的超微结构,并将它们的三维组织作为一个连续的整体可视化于原位的大型细胞核体积中。 在间期细胞核中,染色质具有更加伸展的弯曲结构,而在有丝分裂染色体支架中则形成紧凑的环和相互作用的结构。为了分析染色质的压缩情况,我们创建了染色质体积浓度(CVC)的三维网格图。 染色质聚合物的总体主结构在有丝分裂染色体中并不改变,这有助于解释染色质凝缩的快速动态过程,以及表观遗传相互作用和结构如何通过细胞分裂进行遗传。
在完整的contac matrix的基础上,可以进行A/B隔室,拓扑结构域,染色质环等不同层级空间结构单元的分析。 作为3C技术的升级版,hi-c也是可以直接研究某些染色质之间的交互作用的,只不过由于测序和序列比对等系统误差的存在,在交互矩阵中还是有部分信息是不可靠的,为了通过hi-c技术来直接分析某些染色质之间的互作 从原始的交互矩阵中,根据事先定义的距离阈值提取出mid-range,即中等距离的同一个染色质bin之间的交互作用。 \t分隔的5列,前两列代表第一个bin的染色质名称和中心位置,第三列和第四列代表第二个bin的染色质名称和中心位置,第五列代表两个bin之间的交互频率。 2. 通过最后一列的qvaue作为阈值,去筛选得到显著性的染色质互作。
染色质免疫共沉淀(ChIP)作为目前为止唯一的研究体内DNA与蛋白质相互作用的实验方法,深得人心。 从上面的原理就可以看出,ChIP实验步骤大致可分5步: (1)1%甲醛处理使蛋白质与 DNA 交联 ; (2)细胞裂解,采用微球菌核酸酶消化形成染色质小片段; (3)抗原-抗体反应,促进免疫沉淀反应 设置对照组 ChIP实验内对照:染色质断裂后,须按一定比例留取部分染色质溶液,此Input DNA(断裂后的基因组DNA)作为ChIP实验的内对照。内对照不仅可以验证染色质断裂的效果。 如果按照取样比例换算,还可以根据Input DNA中靶序列的含量和染色质沉淀中的靶序列含量,推算ChIP实验效率,所以Input内对照是必须要设置的。 ② Co-IP免疫共沉淀) ChIP实验中,染色质沉淀步骤时,蛋白和DNA处在交联状态,目标蛋白的结合位点形成空间阻碍,导致抗体无法与目标蛋白结合形成复合物。
4DGenome是一个染色质相互作用数据库,采用了文献检索和软件预测两种手段来得到染色质相互作用,收录了来自5个不同物种共7百多万条互作记录,网址如下 https://4dgenome.research.chop.edu Drosophila melanogaster(dm3) Plasmodium falciparum(3D7) Saccharomyces cerevisiae(sacCer3) 该数据库中收录的染色质互作信息来源于以下多种技术手段 点击Details可以查看详细的互作信息,InteractorA和InteractorB给出了互作的两个染色质区域的位置信息,Agene和Bgene表示与互作区域存在overlap的基因名称, Contact 通过该数据库,可以检索多个物种的染色质互作信息。
什么是染色质可及性? 1 染色质关闭:压缩DNA 人的DNA链全部展开大约有2m,需要折叠为染色质结构才可以存储到放到细胞核中。 2 染色质开放:解压DNA 高度折叠的染色质结构在复制和转录时需要暴露出DNA序列,这段暴露的区域就是染色质开放区域,这个区域可以供转录因子和其他调控元件结合,所以它与转录调控是密切相关的。 这种致密的核小体结构被破坏后,启动子、增强子、绝缘子、沉默子等顺式调控元件和反式作用因子可以接近的特性,叫染色质的可及性,也叫染色质开放性(chromatin accessibility ),这段区域叫开放染色质 检测染色质可及性 为了研究染色质的这种特性,大家都先后尝试了好多测序来检测染色质可及性。但是目前最常用的是2013年由斯坦福大学William J. Greenleaf和Howard Y. (染色质开放性)的测序方法。
染色质结构的差异在同类型细胞中表现得尤为显著,但目前对这种异质性的深入研究仍面临诸多挑战。 传统的高通量测序技术和成像技术虽然能够提供一定的信息,但这些方法往往需要大量的人力和时间投入,限制了对染色质构象变异性的全面分析。因此,开发一种能够高效预测染色质构象的计算方法显得尤为迫切。 ChromoGen的核心在于利用DNA序列和染色质可及性数据(如DNase-seq数据),通过一个两阶段的设计来生成具有区域和细胞类型特异性的染色质构象。 性能表现 ChromoGen在预测染色质构象方面展现出了卓越的性能。研究人员使用了来自GM12878细胞的11,461,472个三维染色质构象进行训练,这些构象覆盖了所有常染色体的1.28 Mb区域。 这表明ChromoGen具有跨细胞类型的预测能力,能够利用DNA序列和染色质可及性数据生成具有细胞类型特异性的染色质构象。
单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析1:https://cloud.tencent.com/developer/article/2055573单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析 2:https://cloud.tencent.com/developer/article/2072069单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析3:https://cloud.tencent.com /developer/article/2078159单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析4:https://cloud.tencent.com/developer/article/2078348 单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析5:https://cloud.tencent.com/developer/article/2084580单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析 单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析9:https://cloud.tencent.com/developer/article/2087563单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析
染色质的可接近性的评估 首先作者来研究,此种技术对染色质的可接近性的评估。 首先对这两种同时测序的数据的量进行画小提琴图,发现染色质测序的量值通过质控达到2000左右,而RNA-seq的数据值UMI的值达到1000-2000之间。 通过SNARE-seq联合转录组和染色质可接近性数据将新生的小鼠的大脑皮层的细胞分为19个类。并且每个类的细胞数目如下 ? 我们可以观察到对于细胞数目最少的几类细胞,每个簇其数目只达到37个。 除此之外,研究者还分别将只通过RNA-seq标记的SNARE-seq的数据和只通过独立的SNARE-seq联合的染色质可接近性的数据结果进行聚类还有就是只是SNARE-seq的-ATAC-seq的数据进行 ,这些提示在染色质可接近数据可以提示在基因组上非编码区存在启动子和增强子序列。
该数据库包含与嵌合断点相关的3D染色质接触图谱,这些接触图是由染色体构象捕获技术(Hi–C)的生成的。 在最近更新的数据中,添加了与嵌合断点匹配的可用药的融合靶点的信息,这些信息适用于癌症的精准治疗。
3CDB是一个染色质空间互作的数据库,根据特定的关键词从pubmed数据库中进行文献检索,查找基于3C技术研究染色质互作的文献,并从中提取染色质互作信息,对应的文章链接如下 https://www.ncbi.nlm.nih.gov /pmc/articles/PMC4831724/pdf/baw044.pdf 数据库网址如下 http://3cdb.big.ac.cn/index.jsp 收录了来自17个物种,共3319个染色质片段互作信息 该数据库中的信息是可以免费下载的,链接如下 http://3cdb.big.ac.cn/pages/download.jsp 通过该数据库,可以获得高可信度的染色质互作信息。
:Genome-wide detection of DNase I hypersensitive sites in single cells and FFPE tissue samples.就是单细胞染色质开放区域测序技术 ,我比较感兴趣就搜索了一下发现了一个很有趣的事实 单细胞染色质开放区域测序技术被NIH的kejizhao承包了 首先NIH的kejizhao课题组在25 November 2015 发表在nature and chromatin accessibility in single cells using scMNase-seq 关于NIH的kejizhao我将委托一位朋友写一下他的故事 在基因组中,大部分的染色质紧密缠绕在细胞核内 染色质重塑作用可以使部分致密的染色质变得松散,这部分松散的染色质被称为开放染色质(open chromatin)或可接近性染色质(accessible chromatin)。 对开放染色质的测序主要有以下几种方法: DNase-seq MNase-seq ATAC-seq ChIP-seq FAIRE-seq 感兴趣的可以下载上面的文献回去细读!
作者提出了一个计算框架,利用过参数化的基于图的自编码器与染色质成像数据(STACI)整合空间转录组数据,以确定组织中的分子和功能改变。
,细胞核内的染色质分布并不是随机的,为了跨越较大的基因组距离去互相作用,比如增强子和启动子的互作,这些密切接触的染色质会靠的更近,这就是染色质疆域。 在二维视角下的染色质疆域 ? 在三维视角下的染色质疆域 ? 目前,发现这些区域有一定的规律: 染色体的位置相对不变:这种相对不变会持续到有丝分裂开始。 LAD主要由转录沉默染色质组成,富含组蛋白H3K27me3 ,这是异染色质的常见翻译后组蛋白修饰。 七、染色质环 Chromatin loops 染色质在空间中形成环状结构,因此相距很远的染色质区域也可以在三维空间中聚集在一起。 ? 据推测大约50%的人类基因通过染色质环化过程参与长距离的染色质相互作用。我们可以基于基因互作矩阵,来查看互作频率相对周围较强的区域,在下图中用蓝色圆圈标记,这些位置就是为染色质环区域。 ?
我们今天要讲的染色质5'转座酶可及性测序,直接用于观察全基因组染色质开放景观的特征,即发现关键基因启动子区域的染色质开放状态水平(只有染色质处于开放状态了,才能有可能和转录因子/Transcription 启动子区域的染色质结构变化和开放性的改变是基因表达调控的重要机制,通过研究染色质开放景观,分析染色质的基因序列(即启动子序列),结合生物信息学算法可预测该序列可结合的转录调控因子,从而理解转录因子通过结合启动子 常见的染色质可及性的检测技术 常见的染色质可及性的检测技术 染色质开放区4种研究方法的比较 (Epigenetics & chromatin, 2014, 7(1): 33.)。 该技术仅需两步就能从500~50,000 个细胞捕获染色质开放区域。 ,获得转录图谱和染色质景观的一体化视图。