
近日,苏州系统医学研究所–新加坡国立大学张阳教授团队在《Advanced Science》发表研究,提出了一种新的分子“基础模型”,探索如何在同一个 AI 框架中同时实现分子理解与分子设计。该工作以“Ouroboros(衔尾蛇)”为设计理念,构建了一种“编码—重建”式的正交架构,将分子表征学习与分子生成统一到同一个潜在空间中:模型先利用图神经网络学习具有化学意义的分子表示,再通过 Transformer 将这些表示重构为具体分子结构。更进一步,研究在训练过程中显式引入分子构象空间与药效团相似性约束,使模型在学习统计规律的同时,能够内化关键的药物化学知识。实验结果表明,Ouroboros 在虚拟筛选、多靶点分子设计、性质预测和定向分子优化等多类任务中展现出良好的泛化能力,为 AI 迈向真正“可设计”的分子基础模型提供了一种统一而可扩展的新思路。

在药物发现过程中,研究人员长期面对一个结构性矛盾:分子表征模型擅长理解分子,却无法直接生成新结构;而分子生成模型可以设计候选分子,却往往缺乏稳定、可解释的化学语义表征。许多生成式预训练依赖可tokenize的“化学语言”(如SMILES),从而难以充分利用分子图的结构优势;同时,高质量实验标签稀缺,迫使模型使用较“浅”的伪标签,难以学到更复杂的化学规律。这种割裂使得“设计—评估—优化”这一闭环流程不得不依赖多个模型拼接完成,不仅效率受限,也难以在复杂任务中积累可迁移的化学知识。

迭代式分子优化策略
近年来,“基础模型(foundational model)”的理念逐渐进入分子科学领域,其核心目标是:在单一模型中系统性地学习化学规律,使其能够同时支撑多种下游任务。然而,如何在一个模型中优雅地兼顾分子生成、分子表征与分子属性预测,仍然是一个未被充分解决的问题。为了填补这一空白,研究人员提出了一种名为 Ouroboros的新型分子基座模型 。该模型的设计灵感源自古老的衔尾蛇图腾,象征着“编码”与“重构”的循环统一。其核心目标是构建一个能够同时理解“分子长什么样”(表征)和“如何设计分子”(生成)的统一引擎。

衔尾蛇,象征从分子到表征,从表征回到分子的循环
领域背景:AI 在药物发现中的三类核心任务
要理解 Ouroboros 的价值,我们需要先回顾 AI 在药物研发(AIDD)中的三个主要应用场景,以及它们如何在此模型中汇聚:

在预训练中学习化学,在下游任务中学习生物学
当前的关键挑战在于: 能否在一个统一的基座模型中充分学习化学知识,使得它既能作为精准的“扫描仪”(表征与预测),又能作为高效的“打印机”(生成),并能在广泛属性建模任务上持续受益?
1. 正交架构:表征与生成的“二元统一”
Ouroboros 的核心创新,在于其正交(orthogonal)的模型结构设计。模型由两个相互独立、又通过表示空间紧密耦合的模块组成:
这种设计的关键不在于“简单拼接”,而在于表征空间本身被约束为既可判别、又可生成的统一化学空间。换言之,模型学习到的不是任务特定特征,而是能够被反向“解码”为合理分子结构的化学表示。更重要的是,这种正交性允许两个模块分别进行预训练,使得研究人员可以针对不同任务选择最合适的网络结构和训练数据集,从而突破了传统模型中表征与生成难以两全的局限 。进一步地,研究人员将这种结构视为一种“化学意义上的自洽系统”:表征模块负责理解分子,重建/生成模块负责将AI探索到的新分子结构从表征空间中重建回分子结构,二者共同构成一个可迁移的分子基础模型。

Ouroboros的整体架构与训练/应用策略
得益于Ouroboros的正交框架,我们可以将其分子表征模块所建立的编码空间应用到各类下游任务中,并将这些“下游任务预测器”的输出作为损失函数,从而直接优化分子的编码向量,并使用分子重建模块解码分子结构在表征空间中被逐步优化的迁移路径。
2. 构象空间药效团相似性引导的知识正则化
Ouroboros 能够“理解”化学的关键在于其独特的预训练策略——构象空间药效团相似性。
这种策略相当于为 AI 安装了一双“化学家的眼睛”,使其表征空间不仅具有统计学意义,更具备了深厚的化学规律约束 。
在多项评估中,Ouroboros 展现出几个值得关注的现象:

相似性筛选任务的基准测试

属性建模任务的基准测试
这些结果共同指向一个结论:当生成与表征共享同一语义空间时,模型不再只是“生成器”或“预测器”,而成为化学设计的统一接口。
在论文中,作者详细讨论了当前模型的局限性:其一,当前工作尚未直接预测分子的“动态构象空间”,这被认为是重要且有前景的延伸;其二,性质基准仅覆盖10项,仍有广阔扩展空间;其三,模型暂不直接预测蛋白-配体结合亲和力,而是依赖对接在迁移路径上筛选更优的小分子结合构象与打分,提示未来需要把蛋白表征纳入训练,以升级为端到端的DTI/亲和力预测与生成框架。
Ouroboros 并非终点,而是一个起点。其正交结构为未来扩展留下了充足空间,例如:
基于这样的框架,Ouroboros可以被广泛的无缝嵌入到各类下游任务模型中,赋予这些下游任务模型优化小分子结构的能力。更重要的是,Ouroboros 所展示的并不仅是一种模型结构,而是一种“表征–生成一体化”的设计范式。它表明,分子基座模型不必在理解与创造之间做出取舍,而是可以通过合理的结构设计,让二者在同一化学认知体系中共存。
从方法论角度看,这篇论文的亮点不仅是某个单点指标,而是其“正交基座 + 化学知识投影约束”的工程化思想:用统一潜空间把表征、生成与属性建模连接成可复用引擎,再用不同的适配头服务于不同药物化学场景,形成真正可扩展的“表征-生成一体化”基础设施。
本论文的第一作者为苏州系统医学研究所王林博士,通讯作者为中国医学科学院苏州系统医学研究所特聘教授及新加坡国立大学教授张阳教授,作者团队还包括来自深药科技(苏州)有限公司的科研人员。张阳教授及其团队长期从事人工智能驱动的蛋白质与 RNA 结构预测及药物设计研究,其开发的多项计算方法在国际 CASP 蛋白质结构预测大赛中连续 9 次获得自动组冠军。王林博士主要研究方向为 AI 辅助的小分子药物发现方法与应用,其提出的 GeminiMol 方法曾在 2023 年首届上海市国际计算生物学创新大赛中获得一等奖。
----参考文献----
L Wang, Y Wu, H Luo, M Liang, Y Zhou, C Chen, J Liu, J Zhang, Y Zhang. “Learned Conformational Space and Pharmacophore Into Molecular Foundational Model.” Advanced Science (2026): e13556.