染色质的三维构象对基因表达调控起着至关重要的作用,但现有的实验技术往往耗时费力,难以全面揭示其复杂性。最近,MIT的Zhang Bin研究团队利用扩散模型技术,开发了一种名为ChromoGen的模型,能够高效地预测单细胞染色质的三维构象。
基因组的三维组织结构对于理解基因调控机制至关重要。染色质结构的差异在同类型细胞中表现得尤为显著,但目前对这种异质性的深入研究仍面临诸多挑战。传统的高通量测序技术和成像技术虽然能够提供一定的信息,但这些方法往往需要大量的人力和时间投入,限制了对染色质构象变异性的全面分析。因此,开发一种能够高效预测染色质构象的计算方法显得尤为迫切。
ChromoGen模型基于扩散模型(diffusion model)。这种模型在文本到图像的应用以及预测配体和蛋白质分子的三维坐标方面已经取得了显著的成果。ChromoGen的核心在于利用DNA序列和染色质可及性数据(如DNase-seq数据),通过一个两阶段的设计来生成具有区域和细胞类型特异性的染色质构象。
首先,ChromoGen利用一个名为EPCOT的框架,将DNA序列和DNase-seq数据转换为低维数值嵌入(embedding)。这些嵌入能够捕捉DNA序列和表观基因组信息之间的相互依赖性。随后,这些嵌入被用于条件化一个去噪扩散概率模型(DDPM),从而生成特定区域和细胞类型的染色质构象。DDPM通过一个U-Net网络逐步去除噪声,最终生成距离图,这些距离图可以进一步转换为三维坐标。
ChromoGen在预测染色质构象方面展现出了卓越的性能。研究人员使用了来自GM12878细胞的11,461,472个三维染色质构象进行训练,这些构象覆盖了所有常染色体的1.28 Mb区域。测试结果表明,ChromoGen生成的染色质构象在多个方面与实验数据高度一致:
ChromoGen不仅在GM12878细胞中表现出色,还能够成功地应用于其他细胞类型。研究人员利用IMR-90细胞的DNase-seq数据进行了测试,结果显示ChromoGen能够准确预测IMR-90细胞的染色质构象,并且与GM12878细胞的预测结果具有类似的准确性和异质性。这表明ChromoGen具有跨细胞类型的预测能力,能够利用DNA序列和染色质可及性数据生成具有细胞类型特异性的染色质构象。
ChromoGen的出现为计算生物学和生物信息学领域提供了一种强大的工具。它不仅能够高效地预测单细胞染色质的三维构象,还能够揭示基因组组织的异质性。这种模型的低计算成本和高准确性使其成为研究基因组三维结构的理想选择。未来,随着更高分辨率的单细胞数据集的出现,ChromoGen有望在更广泛的基因组区域和更高分辨率下展现其潜力。此外,研究人员还计划通过引入图神经网络或Transformer模型来进一步优化ChromoGen的性能,使其能够更高效地处理更长的基因组区域。
文献: Schuette, G., Lao, Z. and Zhang, B., 2025. ChromoGen: Diffusion model predicts single-cell chromatin conformations. Science Advances, 11(5), p.eadr8265.
代码: https://github.com/ZhangGroup-MITChemistry/ChromoGen