DRUGAI
增强子在各种生物过程中通过与转录因子(TFs)相互作用,成为基因表达的关键调控元件。尽管转录因子结合位点(TFBSs)被广泛认为是决定TF结合和增强子活性的关键因素,但其周围的上下文序列在多大程度上影响TF结合及增强子活性仍未被量化。在本研究中,研究人员提出了转录因子结合单元(TFBU)的概念,以模块化方式建模增强子,并使用深度学习模型定量分析TFBS周围的上下文序列的影响。基于该概念,研究人员开发了DeepTFBU,一个用于增强子设计的综合工具包。研究结果表明,设计TFBS的上下文序列可以显著调控增强子活性,并产生细胞类型特异性响应。此外,DeepTFBU在从头设计(de novo design)包含多个TFBS的增强子方面表现出色,同时能够灵活地解耦和优化增强子。研究人员证明了TFBU是增强子建模和设计的关键概念,而DeepTFBU则是高效的理性增强子设计工具。
研究背景
基因表达的精确调控对发育和分化等复杂生物过程至关重要。其中,增强子通过结合转录因子(TFs)在基因调控中发挥核心作用。解析增强子活性的基本机制可以为基因调控的研究提供新见解,并促进合成增强子的设计,在基因工程和基因治疗中具有重要应用价值。传统观点认为,TF结合位点(TFBSs),特别是长约5-20个碱基的TF结合基序(motifs),是决定TF结合和增强子功能的关键因素。研究发现,DNA序列中多个TFBS的排列可以增强其作为增强子的功能,TFBS的方向性和排列顺序也对增强子活性有显著影响。因此,通过操控DNA序列上的TFBS组合已成为合成增强子设计的常用方法。
然而,尽管DNA序列中包含相同的TF结合基序,其TF结合行为仍可能因基因组环境的不同而表现出显著差异。这种变异性强调了TFBS周围上下文序列在决定TF结合效率和增强子活性中的关键作用。例如,短串联重复序列(short tandem repeats)可能直接与TF相互作用,充当“DNA天线”以吸引TF。此外,TF的无序区域(IDRs)有助于识别特定的上下文序列以促进TF结合。局部DNA形状、弱结合位点的存在以及上下文序列中的其他TFBS也可能共同影响TF结合。因此,仅关注TF结合基序的模型存在局限性,迫切需要一种量化方法来表征TFBS上下文对不同TFs和细胞类型的影响,以更好地理解基因调控机制,并理性设计具有特定功能的合成增强子。
为了解决上述挑战,本研究提出了转录因子结合单元(TFBU)的概念,用于模块化地对增强子进行建模和设计。TFBU的定义不仅包括核心TFBS,还包括其周围的上下文序列(TFBS-context)。该整合方法可用于定量评估长DNA序列的TF结合潜力,并预测其在特定细胞类型中的转录激活能力(增强子活性)。研究人员利用深度学习模型,从染色质免疫共沉淀测序(ChIP-seq)数据中提取了影响TF结合的关键模式。这些模型能够理性设计合成增强子,扩展了从核心TFBS到整个增强子序列的设计范围。在此基础上,研究人员开发了一系列增强子设计方法,并将其整合进工具包DeepTFBU。
方法
TFBU 评分模型
研究人员使用深度学习模型分析TFBS及其上下文序列的影响。他们构建了TFBS-context评分模型,用于评估特定TF的结合偏好。该模型的输入是TFBS上下文序列的独热编码,并经过以下神经网络层处理:
该模型利用ChIP-seq数据进行训练,以识别可促进TF结合的序列模式。研究人员从ENCODE数据库获取了198种TF在HepG2细胞系中的ChIP-seq数据,并构建了每种TF的TFBS-context数据集。
TFBU 设计与优化
研究人员开发了一种基于遗传算法(GA)的优化方法,用于设计TFBU序列:
研究人员使用该方法设计了超过36,000条增强子序列,并进行实验验证,结果表明:
实验验证
研究人员通过大规模平行报告基因实验(MPRA)验证TFBU设计的增强子活性:
结论
这项研究展示了TFBU作为增强子设计的关键概念,并提供了一个强大的工具——DeepTFBU,可广泛应用于基因调控研究和合成生物学。