首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ACS. Synth. Biol. | 基于扩散的生成模型用于从头设计启动子

今天为大家介绍的是来自华南理工大学崔巍团队的一篇论文。计算机辅助的启动子设计是合成启动子工程中的一大发展趋势。各种深度学习模型已被用来评估或筛选合成启动子,但关于从头设计启动子的研究还很少。为了探索生成模型在启动子设计中的潜力,作者在大肠杆菌中建立了一个基于扩散的生成模型。该模型完全由序列数据驱动,能够研究自然启动子的基本特征,从而生成在结构和组分上与自然启动子相似的合成启动子。作者还改进了FID指标的计算方法,使用卷积层来提取启动子序列的特征矩阵。得到的合成启动子的FID为1.37,这意味着合成启动子的分布与自然启动子类似。作者的工作为从头设计启动子提供了一种新的方法,这表明一个完全数据驱动的生成模型对于启动子设计是可行的。

01

数据分析-启动子进化分析

​启动子是RNA 聚合酶识别、结合和开始转录的一段DNA 序列,它含有RNA 聚合酶特异性结合和转录起始所需的保守序列,多数位于结构基因转录起始点的上游,启动子本身不被转录。但有一些启动子(如tRNA启动子)位于转录起始点的下游,这些DNA序列可以被转录。启动子的特性最初是通过能增加或降低基因转录速率的突变而鉴定的。启动子一般位于转录起始位点的上游。启动子位于结构基因5'端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特异性。启动子本身并不控制基因活动,而是通过与称为转录(transcription)因子的这种蛋白质(proteins)结合而控制基因活动的。转录因子就像一面"旗子",指挥着酶(enzymes)(RNA聚合酶polymerases) 的活动。

02
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测

    增强子是一段50-1500bp的DNA序列,它能够提高特定基因的转录活性,能大大增强启动子的活性。启动子是转录起始位点上游与RNA聚合酶结合的一段DNA序列,能使RNA聚合酶与模板DNA准确的结合并具有转录起始的特异性。增强子和启动子的相互作用关键影响了基因的表达调控,和人类疾病的发生密切相关。因此研究某个增强子是否会和某个启动子发生反应具有重大的意义。用生物实验的手段进行增强子和启动子的相互作用研究需要耗费大量的人力、时间和资金。随着高通量测序技术发展,为研究人员提供了大量的数据,用计算的方式深入研究增强子和启动子的相互作用成为可能。

    06

    Nature Methods | 深度学习架构Enformer提高基因表达的预测准确性

    本文介绍Žiga Avsec教授团队与Calico的团队共同发表在NATURE MATHOD的工作:作者开发了一种基于Transformers的神经网络架构Enformer,这个深度学习架构能够整合来自基因组中远程交互(高达100 kb远)的信息,大大提高了从 DNA 序列预测基因表达的准确性。由于Enformer在预测变异对基因表达的影响方面较之前的模型来说更为准确,所以可以用于解释来自全基因组关联研究的疾病相关变异。此外,Enformer还学会了从DNA序列直接预测增强子-启动子的相互作用,比起先前直接输入实验数据预测结果的方法有了长足的进步。该模型能促进对基因调控结构的理解,并促进诊断遗传起源疾病的工具的开发。

    01

    【Mol Cell】解析顺式调控密码(五):从调控连接到调控环境

    从调控连接到调控环境 到目前为止,我们的关注点在于单个的增强子-启动子关系,但在基因组中,许多基因有多个同时活跃的增强子和附近的启动子,它们可以彼此合作或竞争。此外,什么构成了一个单独的增强子而不是更大增强子的一部分?虽然短序列(甚至小于200bp)可以表现出报告基因活性,与增强子相关的组蛋白标记可以延伸1kb或更长。同样,如上所述,启动子包含核心启动子和类似UAS的近端调控序列。进一步放大观察,这些增强子和启动子在更广阔的基因组环境中发挥功能,具有在核层、核仁或核斑点的3D定位。 交互模式的多样性 解读这种复杂性的一个常用操作框架是上位性。上位性被定义为偏离独立性的零期望,即,扰动一个增强子应该具有相同的效果,无论是是否存在其他顺式调控元素。当一对增强子中只有一个的丧失对转录输出影响很小时,就会发生冗余,因为每个增强子都能提供大部分的转录输出,而它们的联合丧失会大幅度降低转录。相反,当所有这样的增强子都需要达到全量输出,而每个单独的增强子自身的活动力显著下降时,就会发生协同作用。然而,上位性的操作定义存在歧义——期望应是加性还是乘性?在什么尺度上(例如,等位基因特异表达vs总表达)?这个定义也专注于一个单一的细胞环境——但同一对发育增强子可能在不同的细胞类型中以不同的方式互动(图3)。

    02

    Nature:分析2658例癌症样本的全基因组中非编码体细胞的driver

    以往的大规模测序项目已经确定了许多公认的癌症基因,但大部分工作都集中在蛋白质编码基因的突变和拷贝数改变上,主要使用全外显子组测序和单核苷酸多态性阵列数据。全基因组测序使系统地调查非编码区域的潜在driver事件成为可能,包括单核苷酸变异(SNVs),小的插入和缺失(indels)和更大的结构变异。全基因组测序能够精确定位结构变异断点(breakpoints)和不同基因组位点之间的连接( juxtapositions并置)。虽然以前的小规模样本的全基因组测序分析已经揭示了候选的非编码调控driver事件,但这些事件的频率和功能含义仍然缺乏研究。

    02
    领券