
癌症的异质性是精准医疗最大的挑战——不同患者携带不同的基因突变组合,对同一药物的反应可能天壤之别。传统的药物发现依赖通用靶点,往往忽视了个体基因背景的差异。韩国光州科学技术院和加州大学圣迭戈分校的联合团队提出 G2D-Diff(基因型到药物扩散模型),首次实现了从癌症基因型直接生成个性化候选药物分子。在三阴性乳腺癌的零样本测试中,模型成功识别出与已知有效药物具有相似药效团但结构新颖的化合物,并通过分子对接验证了其靶点结合能力。这项发表在 Nature Communications 的工作,为精准肿瘤学打开了全新的技术路径。

癌症不是单一疾病,而是数百种基因异常组合的集合。即使是同一组织来源的肿瘤,不同患者之间的突变谱也可能截然不同。TP53、KRAS、EGFR 等常见突变固然有共性规律,但罕见突变组合才是真正的临床难题。
更棘手的是,基因型与药物反应的映射关系极其复杂。一个药物可能对携带特定突变的患者疗效显著,对另一组患者却完全无效,甚至产生严重毒性。传统的靶向药物设计聚焦于单一蛋白靶点,无法应对多基因协同作用带来的系统性效应。
对于常见突变如 EGFR L858R,临床积累了大量有效药物数据。但对于罕见突变组合,可用的训练样本寥寥无几。在 GDSC、CTRP 等大型药物筛选数据库中,针对特定基因型的化合物反应数据往往不足百例。这种长尾分布使得传统的有监督学习方法陷入困境。
现有的生成模型如 PaccMannRL 虽然能根据基因表达谱生成分子,但它依赖强化学习框架,需要准确的奖励函数来引导探索。当训练数据稀缺时,奖励信号不可靠,模型容易陷入局部最优,生成的分子缺乏多样性且与条件契合度差。

展示了模型的整体 workflow,包括类比文本到图像生成的核心逻辑、化学 VAE 的结构、基因型到药物的扩散流程、条件编码器的对比预训练方式及扩散步骤中药物敏感性的变化
G2D-Diff 采用三阶段架构,核心思想是在统一的潜空间中连接基因型和分子结构。
第一阶段是 Chemical VAE,基于 LSTM 网络将 SMILES 字符串映射到 128维 的连续潜向量。这个潜空间不仅能准确重建原始分子,更重要的是提供了一个连续的探索空间——相邻的潜向量对应化学性质相似的分子。这为扩散模型的插值和采样奠定了基础。
第二阶段是条件编码器,这是 G2D-Diff 的核心创新。它将癌症细胞系的基因变异数据(突变、拷贝数扩增/缺失)编码为条件向量。但与简单的特征拼接不同,这里引入了基于 NeST 本体论的结构化注意力机制。
NeST(肿瘤嵌套系统本体)是一个层次化的基因功能分类体系,将基因按照生物通路、细胞过程、分子复合物等维度组织成树状结构。G2D-Diff 的条件编码器在 Transformer 的第一层使用屏蔽注意力,仅允许属于同一 NeST 子系统的基因之间进行信息交换。
这个设计蕴含深刻的生物学直觉:基因突变的影响不是孤立的,而是通过所在的信号通路传播。例如,PI3K 突变会影响整个 PI3K/AKT/mTOR 通路中的其他基因。通过限制注意力范围,模型能学习到这种功能模块内的协同效应,而不是被不相关基因的噪声干扰。
实验验证了这一设计的有效性。在三阴性乳腺癌案例中,模型不仅关注到突变的 PIK3CA 基因,还自动关注了同一通路中的 AKT1、PTEN 等基因,精准捕捉到了信号通路的失衡。
第三阶段是潜空间扩散模型,在分子潜向量上进行去噪生成。关键创新在于使用自适应实例归一化(AdaIN)将条件信息注入每一层网络。
具体来说,条件编码器输出的基因型向量和扩散时间步嵌入被联合送入 AdaIN 层,动态调整网络的归一化参数。这使得去噪过程能实时感知当前的生成条件,确保每一步去噪都朝着符合基因型特征的方向演化。
更精妙的是分类器自由引导(Classifier-Free Guidance, CFG)的应用。通过调节 CFG 尺度(最终选择7),模型能在多样性与条件契合度之间达到最佳平衡。CFG 尺度过小,生成的分子虽然多样但可能偏离目标基因型;过大则生成的分子高度相似,失去探索新化学空间的能力。
在针对敏感细胞系(AUC ≤ 0.6)的生成任务中,G2D-Diff 在几乎所有指标上超越了基准模型 PaccMannRL。多样性得分从 0.637 提升至 0.870,意味着生成的分子覆盖了更广阔的化学空间。FCD(Fréchet ChemNet Distance)从 54.3 降至 9.1,表明生成分子的分布更接近真实的敏感化合物。
更重要的是条件契合度的提升。使用独立的预测模型 G2D-Pred 评估,针对极度敏感条件生成的分子,其预测 AUC 显著低于其他反应类别(p < 10⁻⁴),证明模型确实学会了将分子结构与特定基因型的敏感性关联起来。

生成化合物的结构分析 - 包括骨架聚类图、药效团相似度对比、物理化学性质PCA图及潜在先导化合物示例
结构分析揭示了 G2D-Diff 的一个关键能力:保留药效团的同时多样化骨架。药效团是指分子中负责与靶标蛋白相互作用的关键官能团空间排列。理想的生成模型应该保留已知有效药物的药效团特征,但通过改变骨架来探索新的知识产权空间和改善药代动力学性质。
对比分析显示,G2D-Diff 生成的极敏感分子与真实敏感化合物在药效团相似度上高度一致(中位数约 0.7),但在骨架(Scaffold)层面却呈现出丰富的多样性。这意味着模型不是简单地记忆训练集中的已知化合物,而是学到了决定生物活性的深层模式。
生成的分子如果无法合成或不具备类药性质,再高的活性预测也无济于事。G2D-Diff 在这方面表现优异:生成分子的 QED(药物相似性评分)中位数达到 0.72,合成可及性评分(SAS)约为 2.8,均优于 PaccMannRL。
LogP(脂水分配系数)分布分析显示,G2D-Diff 生成的分子主要集中在 2-4 区间,与 ChEMBL 数据库中的临床药物高度一致。这不是巧合,而是潜空间扩散的自然结果——由于训练集中的分子都满足基本的类药规则,潜空间天然地编码了这些约束,扩散过程自动继承了这些偏好。
最具说服力的验证来自零样本案例研究。研究者选取了训练集中未见过的三阴性乳腺癌(TNBC)细胞系 HS578T。TNBC 是最难治疗的乳腺癌亚型,缺乏雌激素受体、孕激素受体和 HER2 表达,传统靶向药物无效。
模型根据 HS578T 的基因型(包括 PIK3CA、TP53、PTEN 等突变)生成了一批候选分子。其中一个名为 TNBC-S1 的化合物引起了研究者的注意。结构分析显示,它与已知的 HDAC/PI3K 双靶点抑制剂 Fimepinostat 具有相似的药效团排列(Tanimoto 相似度 0.41),但骨架完全不同。
分子对接模拟证实了这一发现。TNBC-S1 与 PI3Kα 的结合自由能为 -9.8 kcal/mol,与 HDAC1 的结合为 -8.5 kcal/mol,均显示出强结合能力。更重要的是,通过分析条件编码器的注意力权重,研究者发现模型自动识别了 PI3K/AKT/PTEN 信号通路和组蛋白去乙酰化通路作为关键致病机制——这与 TNBC 的已知生物学高度吻合。
第二个案例更具临床意义。研究者从 GENIE 数据库中选取了一名 TNBC 患者的基因组数据,包括 MDM2 扩增、CDKN2A/2B 缺失等变异。模型生成的 TNBC-S2 化合物与临床使用的 CDK 抑制剂 Dinaciclib 具有药效团相似性,但结构新颖。
对接分析显示,TNBC-S2 与 CDK1 的结合能为 -9.2 kcal/mol,与 CDK2 为 -8.7 kcal/mol。注意力机制分析揭示,模型关注了 CDK 全酶复合物和细胞周期调控通路——这与患者的 MDM2 扩增(导致 p53 失活和细胞周期失控)和 CDKN2A/2B 缺失(CDK 抑制剂失活)的分子表型完全一致。
这两个零样本案例展示了 G2D-Diff 的核心价值:即使面对训练集中未见过的基因型组合,模型也能通过学到的基因-药物映射关系,生成生物学上合理的候选分子。
传统的深度学习药物生成模型常被诟病为黑箱——虽然能生成分子,但无法解释为什么这个分子适合这个基因型。G2D-Diff 通过可解释的注意力机制迈出了重要一步。
通过可视化条件编码器的注意力权重,研究者能识别出模型认为重要的基因和通路。这不仅增强了结果的可信度,更为后续的实验验证提供了明确方向。当 TNBC-S1 被识别为 PI3K/HDAC 双靶点抑制剂时,这个假设可以直接通过体外酶活实验验证,无需盲目筛选。
G2D-Diff 相比强化学习模型在多样性上的优势,根源在于扩散模型的探索机制。强化学习依赖奖励函数引导,容易陷入贪婪策略——一旦找到高奖励区域就反复采样。扩散模型则通过随机噪声注入,天然具备全局探索能力。
更重要的是,潜空间的连续性使得扩散过程能进行有意义的插值。在两个已知敏感分子之间插值,得到的中间点对应的分子往往也具有敏感性,但骨架可能完全不同。这种语义插值能力是离散搜索方法难以企及的。
NeST 本体论引导的注意力机制,体现了一个重要理念:领域知识不应是模型的竞争对手,而应是合作伙伴。完全依赖数据驱动的端到端学习,在数据充足时固然强大,但在数据稀缺的精准医疗场景中,注入结构化的生物学先验至关重要。
这个设计还有更深层的价值。通过分析模型关注的通路,研究者能发现之前未被重视的致病机制。例如,如果模型在某个罕见突变组合中持续关注某个冷门通路,这可能提示该通路在这种特定背景下扮演关键角色,值得进一步的基础研究。
尽管 G2D-Diff 展示了令人兴奋的潜力,仍有改进空间。当前使用的 Chemical VAE 基于 SMILES 表示,虽然简洁高效,但潜空间存在定义不明的区域,可能导致生成部分化学无效的结构(约5%的无效率)。未来可以考虑采用基于图的 VAE 或 3D 构象感知的编码器,提升潜空间的质量。
模型目前主要利用体外药物筛选数据,这些数据虽然高通量,但与体内药效和临床反应仍有差距。整合药代动力学数据、类器官模型结果、患者来源异种移植(PDX)数据,甚至真实世界的临床反应数据,将显著提升生成分子的转化价值。
从方法论角度,扩展到多模态条件是自然的下一步。除了基因型,还可以整合基因表达谱、蛋白质组学、代谢组学数据,构建更全面的患者画像。此外,将分子生成与药物组合优化结合,探索协同治疗方案,也是精准肿瘤学的迫切需求。
更宏大的愿景是将 G2D-Diff 从单纯的生成工具演化为端到端的药物发现平台。集成靶点预测、结合位点对接、ADMET 性质预测、合成路线规划等模块,形成从基因型到临床候选药物的全流程自动化系统。
Q1: 为什么潜空间扩散比直接在 SMILES 上自回归生成更适合条件控制?
SMILES 是线性序列,自回归模型逐字符生成,难以全局协调长程依赖。当条件复杂时(如同时满足特定基因型和多个性质约束),自回归模型需要在每一步决策时考虑所有未来的约束,这在组合爆炸的搜索空间中极其困难。潜空间扩散则在连续向量空间中运行,条件信息通过 AdaIN 在每一层全局注入,模型能整体调整生成方向,而不是局部逐步决策。
Q2: NeST 本体论的结构化注意力如何帮助模型泛化到罕见突变?
NeST 将基因按功能模块组织,这是一种归纳偏置。即使某个具体的突变组合在训练集中未出现,只要涉及的基因属于已知的功能模块,模型就能利用该模块内其他基因的学习经验进行迁移。例如,虽然训练集中可能没有 PIK3CA E545K + PTEN 缺失的组合,但由于两者都属于 PI3K 通路,模型能推断出这个组合可能对 PI3K 抑制剂敏感。这种模块化泛化是零样本学习的关键。
Q3: 分子对接分数能否可靠预测实际药效?
分子对接提供的是静态结合能估计,未考虑蛋白质柔性、溶剂效应、熵变等因素。因此对接分数只能作为初步筛选工具,不能直接预测临床疗效。但在 G2D-Diff 的框架中,对接起到了两个作用:一是验证生成分子与预测靶点的物理相容性,二是为后续的药物化学优化提供起点。真正的药效验证需要体外酶活测定、细胞实验、动物模型和临床试验的逐级确认。
Q4: 如何理解生成分子的新颖性与风险的平衡?
新颖性是双刃剑。完全新颖的骨架可能带来突破性的活性和知识产权价值,但也意味着未知的毒性和代谢风险。G2D-Diff 通过在潜空间中扩散,天然地在训练集定义的化学空间邻域内探索,生成的分子虽然结构新颖,但仍保留了已知类药分子的核心特征。这种受约束的创新是药物发现的理想状态——足够新以带来优势,但不至于新到完全不可预测。
参考文献:Kim, H., Bae, B., Park, M. et al. A genotype-to-drug diffusion model for generation of tailored anti-cancer small molecules. Nat Commun 16, 5628 (2025). https://doi.org/10.1038/s41467-025-60763-9
代码数据:
数据集:GuacaMol, GDSC, CTRP, NCI60, DepMap, Project GENIE