
生成式基因组模型正在迅速提升可设计生物系统的复杂度。然而,如何精准地控制模型生成具有特定功能的全新序列,仍然是一个主要挑战。研究人员展示了 Evo——一种基因组语言模型——能够利用基因组上下文执行功能引导的序列设计,从而探索自然界从未出现过的新序列空间。Evo 学习了原核基因之间的语义关系,使其可以通过“基因组自动补全”的方式:输入包含某一功能基因组环境的 DNA 提示词后,模型会生成功能相关且序列多样的全新基因,即“语义设计”。研究人员通过实验验证了该策略能够成功生成新的 anti-CRISPR 蛋白,以及类型 II 和 III 的毒素–抗毒素系统,其中包括与天然蛋白无显著序列相似性的 de novo 基因。
无论是蛋白还是非编码 RNA,Evo 的上下文设计均展现出强大的功能活性和高实验成功率,即便在缺乏结构先验、进化保守性或任务特化训练的情况下也表现突出。研究人员进一步利用 Evo 完成数百万提示词,构建了包含 1200 亿碱基的人工基因组数据库 SynGenome,使语义设计能够覆盖更广泛功能。
总体而言,这些结果说明基于语言模型的生成式基因组学能够突破天然序列的限制,扩展生物功能的可设计边界。

尽管生成式人工智能为功能性生物系统设计带来了巨大潜力,但“如何将功能传达给模型”始终尚未解决。在自然语言中,词语的含义可以通过共现关系推断,即“由其邻居定义”。类似地,在生物学中,基因的功能也可以通过其与其他基因的邻近关系推断,即“由它所处的基因环境定义”。
在原核基因组中,功能相关的基因经常相邻排列,形成基因簇或操纵子。长期以来,研究人员利用这种“基因邻域即功能”的规律发现了大量未知基因的功能——包括各种重要的生物学机制和生物技术工具。
随着长上下文机器学习的发展,大型基因组生成模型能够处理数千乃至数万碱基长度的 DNA。由于这些模型能根据提示词预测下一个碱基,因此可以在给定基因组序列上下文的情况下生成新的序列。
基于此,研究人员提出:如果向模型输入某一功能的基因组上下文提示词,模型是否能基于所学“基因语义”生成功能相关的新序列?这便是“语义设计”的核心思想:利用多基因间的功能关联,生成富含目标功能的新序列,并扩展天然序列未覆盖的功能空间。
方法
研究人员使用 Evo 语言模型执行语义设计。Evo 在大规模原核生物基因组上进行预训练,能够处理多千碱基长度的输入。通过提供包含功能上下文的 DNA 片段作为提示词,模型可生成与该基因组环境功能相似但序列多样的新基因。随后,研究人员对生成的候选基因进行计算筛选(结构预测、序列新颖性过滤等)并通过实验验证其功能性,包括毒素–抗毒素系统与 anti-CRISPR 系统。
结果
Evo 支持“上下文内”基因组设计
Evo 能够根据基因组上下文自动完成保守基因
研究人员使用部分序列提示词测试 Evo 是否能够补全高度保守的原核基因(如 rpoS、gyrA、ftsZ)。
说明模型不仅学习了序列本身,也能利用基因组上下文进行推断。
跨基因的操纵子级自动补全
在 trp 和 modABC 操纵子中,研究人员使用上游或下游基因作为提示词,模型能够:
模型生成的序列展现“自然进化式”变化模式
通过氨基酸与核苷酸层面的熵分析可见:
说明 Evo 的生成非简单记忆,而是表现出类似自然进化的变化模式。

图 1|Evo 基因组语言模型的语义化自动补全能力。
多组分系统的语义化设计
Evo 生成全新的 II 型毒素
研究人员从 T2TA 上下文提示词生成候选毒素,并筛选出功能性毒素 EvoRelE1。
随后使用 EvoRelE1 作为提示词生成抗毒素,最终得到:
这些抗毒素与天然序列相似性极低(21–27%),但功能强。
抗毒素跨毒素的兼容性
例如:
说明 Evo 发现了自然界中少见的“跨系统兼容性”。
类型 III(T3TA)系统的语义设计
研究人员生成的 RNA 抗毒素 EvoAT6 能有效抵消 ToxN,展示:
同时还生成了新的 III 型毒素 EvoT1,其结构与序列均无天然同源。

图 2|利用语义设计生成功能性 II 型和 III 型毒素–抗毒素系统。
全新抗 CRISPR 蛋白的语义化设计
从 anti-CRISPR 操纵子提示词生成创新型 Acrs
通过来自已知 Acr 操纵子的上下文提示,模型生成大量候选序列。
使用 PaCRISPR 筛选后显示:
实验验证:17% 候选 Acr 具有功能性
5 个强功能的 Acr(EvoAcr1–5)被鉴定:
这是典型的 de novo 功能蛋白。
高度新颖性的结构与序列特征
EvoAcr1 与 EvoAcr2:
与先进的 de novo 蛋白设计方法生成的蛋白相当或更高的新颖性。

图 3|通过语义设计生成功能性 de novo anti-CRISPR 蛋白(Acr)。
SynGenome:120 Gb 规模的 Evo 生成基因组数据库
研究人员利用 170 万原核与噬菌体基因作为提示,生成超过 1200 亿碱基的人工 DNA。
SynGenome 的统计特征接近天然基因组
生成功能簇捕捉天然基因组协同结构
使用集群分析发现:
SynGenome 可辅助未知功能蛋白(DUF)注释
例如 DUF2871 与细胞色素相关结构域高度共现,为其功能提供假设。
新型结构域融合蛋白的发现
SynGenome 中存在自然界少见的多结构域嵌合蛋白,可能具有新功能。

图 4|SynGenome:基于语义设计生成的 1200 亿碱基人工基因组数据库。
讨论
研究人员通过 Evo 展示了语义设计在功能性序列生成中的强大能力:
语义设计仅依赖基因组上下文,而非人工标签或结构信息。
包括几乎完全没有天然同源的 anti-CRISPR 与毒素蛋白。
例如 II 型与 III 型毒素–抗毒素系统,均能准确生成功能配对的蛋白与 RNA。
生成的序列可作为定向进化、蛋白工程的起点。
可用于功能挖掘、基因创新与结构域组合探索。
未来随着基因组语言模型的发展、更高质量的训练数据与推理策略,语义设计将持续提升,为设计复杂生物系统、合成通路甚至合成基因组奠定基础。
整理 | 王建民
参考资料
Merchant, A.T., King, S.H., Nguyen, E. et al. Semantic design of functional de novo genes from a genomic language model. Nature (2025).
https://doi.org/10.1038/s41586-025-09749-7