首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nature | 基于基因组语言模型的语义驱动 de novo 功能基因设计

Nature | 基于基因组语言模型的语义驱动 de novo 功能基因设计

作者头像
DrugOne
发布2025-11-29 17:15:03
发布2025-11-29 17:15:03
120
举报
文章被收录于专栏:DrugOneDrugOne

生成式基因组模型正在迅速提升可设计生物系统的复杂度。然而,如何精准地控制模型生成具有特定功能的全新序列,仍然是一个主要挑战。研究人员展示了 Evo——一种基因组语言模型——能够利用基因组上下文执行功能引导的序列设计,从而探索自然界从未出现过的新序列空间。Evo 学习了原核基因之间的语义关系,使其可以通过“基因组自动补全”的方式:输入包含某一功能基因组环境的 DNA 提示词后,模型会生成功能相关且序列多样的全新基因,即“语义设计”。研究人员通过实验验证了该策略能够成功生成新的 anti-CRISPR 蛋白,以及类型 II 和 III 的毒素–抗毒素系统,其中包括与天然蛋白无显著序列相似性的 de novo 基因。

无论是蛋白还是非编码 RNA,Evo 的上下文设计均展现出强大的功能活性和高实验成功率,即便在缺乏结构先验、进化保守性或任务特化训练的情况下也表现突出。研究人员进一步利用 Evo 完成数百万提示词,构建了包含 1200 亿碱基的人工基因组数据库 SynGenome,使语义设计能够覆盖更广泛功能。

总体而言,这些结果说明基于语言模型的生成式基因组学能够突破天然序列的限制,扩展生物功能的可设计边界。

尽管生成式人工智能为功能性生物系统设计带来了巨大潜力,但“如何将功能传达给模型”始终尚未解决。在自然语言中,词语的含义可以通过共现关系推断,即“由其邻居定义”。类似地,在生物学中,基因的功能也可以通过其与其他基因的邻近关系推断,即“由它所处的基因环境定义”。

在原核基因组中,功能相关的基因经常相邻排列,形成基因簇或操纵子。长期以来,研究人员利用这种“基因邻域即功能”的规律发现了大量未知基因的功能——包括各种重要的生物学机制和生物技术工具。

随着长上下文机器学习的发展,大型基因组生成模型能够处理数千乃至数万碱基长度的 DNA。由于这些模型能根据提示词预测下一个碱基,因此可以在给定基因组序列上下文的情况下生成新的序列。

基于此,研究人员提出:如果向模型输入某一功能的基因组上下文提示词,模型是否能基于所学“基因语义”生成功能相关的新序列?这便是“语义设计”的核心思想:利用多基因间的功能关联,生成富含目标功能的新序列,并扩展天然序列未覆盖的功能空间。

方法

研究人员使用 Evo 语言模型执行语义设计。Evo 在大规模原核生物基因组上进行预训练,能够处理多千碱基长度的输入。通过提供包含功能上下文的 DNA 片段作为提示词,模型可生成与该基因组环境功能相似但序列多样的新基因。随后,研究人员对生成的候选基因进行计算筛选(结构预测、序列新颖性过滤等)并通过实验验证其功能性,包括毒素–抗毒素系统与 anti-CRISPR 系统。

结果

Evo 支持“上下文内”基因组设计

Evo 能够根据基因组上下文自动完成保守基因

研究人员使用部分序列提示词测试 Evo 是否能够补全高度保守的原核基因(如 rpoS、gyrA、ftsZ)。

  • Evo 1.5 版本恢复率最高:仅以 30% 提示词输入,即可恢复 85% 氨基酸序列。
  • 当输入 80% 时,几乎达到 完整恢复。

说明模型不仅学习了序列本身,也能利用基因组上下文进行推断。

跨基因的操纵子级自动补全

在 trp 和 modABC 操纵子中,研究人员使用上游或下游基因作为提示词,模型能够:

  • 正确生成目标基因
  • 适应正反链提示词
  • 捕捉操纵子级的基因组织规律

模型生成的序列展现“自然进化式”变化模式

通过氨基酸与核苷酸层面的熵分析可见:

  • 模型在功能关键位点保持低变异
  • 非关键位点呈现高度多样性
  • 氨基酸替换偏向保守替换类型

说明 Evo 的生成非简单记忆,而是表现出类似自然进化的变化模式。

图 1|Evo 基因组语言模型的语义化自动补全能力。

多组分系统的语义化设计

Evo 生成全新的 II 型毒素

研究人员从 T2TA 上下文提示词生成候选毒素,并筛选出功能性毒素 EvoRelE1。

随后使用 EvoRelE1 作为提示词生成抗毒素,最终得到:

  • 50% 候选抗毒素具备功能
  • EvoAT1–4 能完全或部分抵消毒素活性

这些抗毒素与天然序列相似性极低(21–27%),但功能强。

抗毒素跨毒素的兼容性

例如:

  • EvoAT2 能同时抑制 RelE、MazF、YoeB 等多种天然毒素

说明 Evo 发现了自然界中少见的“跨系统兼容性”。

类型 III(T3TA)系统的语义设计

研究人员生成的 RNA 抗毒素 EvoAT6 能有效抵消 ToxN,展示:

  • 结构保留
  • 序列高度新颖
  • 新型功能性 RNA 可被语义设计生成

同时还生成了新的 III 型毒素 EvoT1,其结构与序列均无天然同源。

图 2|利用语义设计生成功能性 II 型和 III 型毒素–抗毒素系统。

全新抗 CRISPR 蛋白的语义化设计

从 anti-CRISPR 操纵子提示词生成创新型 Acrs

通过来自已知 Acr 操纵子的上下文提示,模型生成大量候选序列。

使用 PaCRISPR 筛选后显示:

  • 生成序列中 Acr-like 候选显著富集
  • 候选序列之间序列身份中位数仅 23%,表现出极高多样性

实验验证:17% 候选 Acr 具有功能性

5 个强功能的 Acr(EvoAcr1–5)被鉴定:

  • 在液体培养与噬菌体实验中均可成功抑制 SpCas9
  • EvoAcr3–5 表现与天然 AcrIIA2 相当
  • EvoAcr1、EvoAcr2 无明显序列或结构同源,却能强效抑制 Cas9

这是典型的 de novo 功能蛋白。

高度新颖性的结构与序列特征

EvoAcr1 与 EvoAcr2:

  • 无 BLAST、Dali 或 Foldseek 明显匹配
  • 需要从 28–31 个天然蛋白碎片才能覆盖其序列

与先进的 de novo 蛋白设计方法生成的蛋白相当或更高的新颖性。

图 3|通过语义设计生成功能性 de novo anti-CRISPR 蛋白(Acr)。

SynGenome:120 Gb 规模的 Evo 生成基因组数据库

研究人员利用 170 万原核与噬菌体基因作为提示,生成超过 1200 亿碱基的人工 DNA。

SynGenome 的统计特征接近天然基因组

  • ORF 长度分布与自然基因组一致
  • Pfam 蛋白结构域频率高度相关(r = 0.78)
  • 密码子使用保持一致

生成功能簇捕捉天然基因组协同结构

使用集群分析发现:

  • 多数生成序列与天然提示序列混合成同一语义簇
  • 约 19% 聚类几乎由生成序列组成,代表“非自然”的新功能空间

SynGenome 可辅助未知功能蛋白(DUF)注释

例如 DUF2871 与细胞色素相关结构域高度共现,为其功能提供假设。

新型结构域融合蛋白的发现

SynGenome 中存在自然界少见的多结构域嵌合蛋白,可能具有新功能。

图 4|SynGenome:基于语义设计生成的 1200 亿碱基人工基因组数据库。

讨论

研究人员通过 Evo 展示了语义设计在功能性序列生成中的强大能力:

  • 不依赖任务特化训练,却能实现功能控制

语义设计仅依赖基因组上下文,而非人工标签或结构信息。

  • 生成序列可超越自然多样性

包括几乎完全没有天然同源的 anti-CRISPR 与毒素蛋白。

  • 适用于多组分系统设计

例如 II 型与 III 型毒素–抗毒素系统,均能准确生成功能配对的蛋白与 RNA。

  • 极具价值的序列多样性来源

生成的序列可作为定向进化、蛋白工程的起点。

  • SynGenome 使研究人员不必自行生成序列即可访问巨大功能空间

可用于功能挖掘、基因创新与结构域组合探索。

未来随着基因组语言模型的发展、更高质量的训练数据与推理策略,语义设计将持续提升,为设计复杂生物系统、合成通路甚至合成基因组奠定基础。

整理 | 王建民

参考资料

Merchant, A.T., King, S.H., Nguyen, E. et al. Semantic design of functional de novo genes from a genomic language model. Nature (2025).

https://doi.org/10.1038/s41586-025-09749-7

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档