DRUGAI
本文介绍一篇来自浙江大学潘培辰、侯廷军、康玉和谢昌谕团队联合香港科技大学黄湧联合发表的一篇论文。该研究提出一种基于深度学习的先导化合物优化模型Delete(Deep Lead Optimization Enveloped in Protein Pocket),结合生成式AI与基于结构的分子设计策略,首次实现linker设计、片段替换、骨架跃迁及侧链修饰等所有先导化合物优化子任务的全流程整合。研究团队将Delete应用于非小细胞肺癌全新致癌靶点CLIP1-LTK,成功设计出纳摩尔级活性分子(IC50=1.36nM),其选择性及抗肿瘤机制已通过体内外实验验证。这项工作代表了基于蛋白质结构的生成 AI 的成功实施,提出了一个高效的先导化合物优化模型 Delete,为分子设计和药物开发领域提供一种高效、精准且可靠的优化工具。
研究背景
长期以来,药物发现一直被认为是一个耗时、昂贵且风险高的过程,现代人工智能辅助药物设计(AIDD)通过自动发现候选药物分子来加速这一进程。AIDD 的一个应用在于分子生成,以 JAEJER、GENTRL 和 GDL-RIPK1 为例,它们通过超越离散化学库直接在连续化学空间中探索分子。然而,目前经过验证的分子生成工作主要集中在基于配体的从头设计(De novo Design)模型上,这并不满足现实中的药物设计需求。首先,基于配体的方法局限于经过充分研究的靶标,需要对已证明对目标蛋白质有活性的分子进行微调,对全新的靶标不具备通用性。此外,对先导分子进行结构修饰以提高分子活性、减少毒性、改善成药性等是药物发现必经的过程,从头设计方法并不适用于优化过程。
为了应对这些挑战,研究者试图实现两个基本概念:基于结构的范式和先导优化方法,这种整合催生了Delete(Deep Lead Optimization Enveloped in Protein Pocket)。与主要侧重于通过数据记忆识别化学模式的基于配体的范式不同,基于结构的方法寻求掌握底层物理原理。如 DiffSBDD、Pocket2Mol 和 ResGen,它们将蛋白质结构视为硬条件,直接在口袋内生成分子。受这些工作的启发,Delete 利用几何感知和等变网络作为骨干来理解详细的蛋白质诱导相互作用。通过这种方式,该模型可以有效地用于研究看不见的靶标,因为尽管 3D 结构因情况而异,但底层的基本物理保持不变。另一个概念先导优化,AIDD 领域中当前的先导优化模型往往是单任务导向的,主要基于配体,如 DeepFrag、DiffLinker、FFLOM 和 ScaffoldGVAE。这些模型的两个特点限制了它们在现实场景中的适用性。研究者在Delete中将先导化合物优化任务总结为四个不同的子任务:Linker设计、片段替换、骨架跃迁和侧链修饰,为先导化合物优化提供了一种开创性的基于结构的综合解决方案。
Delete架构
Delete 的构建依赖于统一的掩码策略、相互作用框架、分子生成框架和损失函数。在输入蛋白质和先导化合物片段后,使用拓扑表面模型对蛋白质进行建模,而使用几何图模型对分子进行建模。相互作用表征框架学习蛋白质口袋和先导片段的拓扑和几何相互作用,从而产生具有几何和能量信息的节点表示。分子生成采用自回归形式,使其能够完全与拓扑口袋相互作用,然后使用口袋信息作为强约束来指导分子生成过程。生成框架由生长点预测模块、几何生成模块和拓扑预测模块组成。
图 1. Delete工作流程示意图。
结果与讨论
Delete生成分子质量的计算评估
Delete模型是一个一站式先导化合物优化模型,作者分别展示了其在四个先导化合物优化任务下生成分子的质量。衡量一个将蛋白质结构作为强约束的模型的首要指标就是设计的对应分子与对应靶标之间的结合紧密程度,最直观的反应就是原位结合能Scoring和对接结合能Docking。如表1所示,在这两个指标当中,Delete在四个子任务上均击败了基线模型,每个子任务上超出第二名方法接近1 kcal/mol的结合能增益。值得注意的是,其中DeLinker,FFLOM,ScaffoldGVAE和SCMG都是2D生成的方法且无法考虑蛋白结构,所以没有原位结合能指标。除了SCMG外,三个模型的平均对接结合能均低于测试集的分子,解释了在设计抑制剂时模型对结构的感知的重要性。对于另外三个具有结构感知能力的模型,即DiffLinker、DeepFrag和Fragmenstein,除了DiffLinker和测试集的平均结合能较为接近之外,其他两个模型均落后于测试集的分子0.5 kcal/mol左右的对接结合能。这可能和DeepFrag和Fragmenstein的模型原理有关。总之,从对接结合能,原位结合能和口袋命中率三个指标来看,虽然Delete模型并不是针对某一个特定任务所设计的,但是其在每个子任务上均实现了SOTA的效果,反应了Delete作为一个统一模型,其条件结构生成能力可以在不同的子任务之间获得持续的增益。
除了最直接相关的结合能指标之外,表1还列了4个常见的分子属性指标,即定量类药性(QED),合成难度(SA),Lipinski五规则以及LogP。这几个指标常用于分子优化模型的评测,然而在研究者的结构生成模型当中,条件只有输入的蛋白结构。所以作者认为在这四个相对弱关联的指标上,模型生成的分子和测试集中真实的分子类似即可。具体而言,在这四个分子属性的指标上,2D模型在四个任务当中累计取得了8次最优,这是因为2D模型一般以CHEMBL,ZINC等较大的分子库进行训练,比CrossDock 10w训练分子的数量要高出1-2个量级,自然使得模型在生成的时候对类药分子的可能化学空间有更多的选择;除此之外,没有蛋白质结构的约束也使得2D模型只需要考虑生成分子的合理性,进而可以自由探索化学空间。所以在分子属性指标上,2D模型取得了不俗的表现。除此之外。和其他的三个结构感知模型相比,Delete取得了一次分子属性的最优值(Linker设计当中的SA),DeepFrag则取得了三次。这是因为DeepFrag进行采样的片段库当中的片段都较小,自然带来了分子属性方面的增益。总体而言,Delete模型生成的分子属性虽然由于方法学的限制无法取得SOTA结果,但是其生成的结果仍然可接受,即与测试集当中的分子类似。Delete最后生成的分子还经过了回溯性研究和湿实验的验证,进一步证明其有效性。
表1. Delete模型在四个子任务上合基线模型的分子属性对比
Delete的回溯性研究
由于计算指标本身的偏差,对接软件计算的能量指标或分子特性可能不足以准确评估模型。例如,由于结合能贡献的加性,结合能指标倾向于有利于具有更多原子数的分子。相反,对于可合成性,原子数较少的分子自然更容易合成。因此,回顾性研究模拟历史药物发现案例以检查模型是否能够重现相应的输出结果,提供了另一个直观和定性的视角。作者进行了五项回顾性研究,包括肌苷 5'-单磷酸脱氢酶 (IMPDH) 和 SMARCA2 (PROTAC) 的linker设计、β1-肾上腺素能受体 (Adrb1) 的片段替换、驱动蛋白 Eg5 的骨架跃迁以及 D2 多巴胺受体 (DRD2) 的侧链修饰。文中以癌症化疗药物开发的关键靶标驱动蛋白-5(Kinesin-5, Eg5)为案例进行骨架跃迁的回溯性研究。
Ulaganathan等人使用X射线方法鉴定并表征了Eg5的一个变构口袋,开发了具有纳摩尔级活性的抑制剂BI8。根据这项工作,作者采用BM骨架分解方式,删除了BI8化合物的骨架,仅保留了一些小片段用于Delete生成的输入结构。
Delete成功生成了131个结构。尽管输入的是分布在空间当中的极小的片段,Delete仍然能生成合理的跃迁骨架。具体而言,生成分子的平均2D相似度仅为0.47,表明生成的骨架与原始骨架相比发生了足够多的结构变化(以前的工作将0.6作为阈值);3D形状相似度高达0.79,表明生成的分子保留了原始化合物的空间特征。图中展示了能量指标的分布,说明了Delete骨架跃迁的分子40.5%具有比原始分子更好的对接结合能。图中展示了四个生成化合物的叠合图、相互作用分析和骨架所对应的2D结构。第一个示例是一个与原始结构仅差一个氟原子的骨架,并且其几何构象几乎与原始晶体结构完美重叠,保持了几乎所有重要的相互作用。其他三个示例展示了Delete生成的三个具有完全不同的骨架的分子。这些分子不仅保留了与原始结构接近的3D构象,并且保持了在晶体结构中观察到的大部分相互作用,如与W127、L160、L214、F239的疏水键和与G217的亲水键。有趣的是,即使只基于口袋内散布的几个原子,Delete仍能为化学家提供有潜力的骨架结构。既然Delete可以在最具挑战性的BM骨架当中取得令人印象深刻的结果,那么其在更简单的骨架跃迁任务当中自然也会有类似甚至更好。
图 2. Eg5-骨架跃迁任务回溯性研究。
Delete针对LTK靶点的药物设计
为了进一步说明Delete在现实世界当中药物设计的能力,作者将Delete运用在了针对LTK靶点的药物设计当中。CLIP1-LTK是非小细胞肺癌的致癌融合突变,蛋白的融合导致LTK激酶域的活性失控,有效的治疗策略就是设计靶向LTK蛋白的小分子抑制剂。截止目前,尚未有关于LTK靶向抑制剂设计的报道,但是其高度同源蛋白ALK则已有详尽的研究,作者推测可以利用ALK靶标上的部分片段作为先导分子,用于锚定化合物进入结合口袋,之后再利用Delete对结构进行生成改造,设计出与结合口袋契合的候选化合物。
作者在之前针对ALK靶标的研究中曾发现一个活性较好的小分子抑制剂,但由于不良的药代动力学性质导致其体内效果较差。通过分析其与靶标蛋白之间的结合模式,作者将其用作Delete的起始片段进行分子生成,并对生成的结果基于结合亲和力、ADMET性质以及合成复杂度对生成结果进行进一步的评估。最终合成出八个候选化合物,经过细胞水平实验的初步检测,当中有6个展示出< 1 μM 级别的抑制活性,其中CA-B-1达到了6.60 nM的细胞抑制IC50值。在后续的实验中,研究者发现该小分子具有高度选择性,能够抑制LTK下游信号通路的传导,诱导细胞凋亡、阻滞细胞周期,并在体内表现出优异的抗肿瘤效果,药代动力学性质相比于起始小分子有显著提升。CA-B-1的高选择性和高活性证明了Delete所代表的基于结构的AI设计策略的有效性。
图 3. Delete应用于LTK的药物设计。
总结
作者通过引入 3D 分子生成框架和统一的掩码策略,提出了药物发现中先导化合物优化的一体化解决方案—Delete。与现有的 DeLinker 和 DeepFrag 等单任务模型相比,该框架使单个模型能够以出色的效率执行先导化合物优化的多项任务。此外,基于配体的模型仅生成随机分子,而不生成功能性配体。在 Delete 中嵌入几何神经网络可以同时预测完整分子的近自然构象,统一分子生成和构象生成。在四种不同的先导化合物优化场景下进行的综合评估证实了 Delete 的功能。它不仅可以用于优化首创药物的先导化合物,还可以帮助药物化学家通过对现有药物进行结构修改/替代来开发同类产品/更好的产品。
但Delete仍然面临一些问题,一个值得注意的挑战是它无法解释构象灵活性,生成的配体完全基于结合口袋的刚性几何和能量特性。未来的改进可能涉及采用动态图神经网络来更好地捕捉配体和其靶口袋之间的诱导契合效应。此外,将 Delete 扩展到更大或更多样化的数据集也带来了潜在的挑战,因为增加的计算需求可能会阻碍性能并减慢开发过程,尤其是在应用于复杂的蛋白质靶标和广泛的化学库时。为了进一步提高 Delete 在不同蛋白质靶标中的通用性,未来的研究应优先考虑改进训练方法和整合更有效的数据以及采样技术。
参考资料
Chen, S., Zhang, O., Jiang, C. et al. Deep lead optimization enveloped in protein pocket and its application in designing potent and selective ligands targeting LTK protein. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-025-00997-w