
近日发表于arXiv的研究论文《Molecule Generation for Target Protein Binding with Hierarchical Consistency Diffusion Model》提出了一种创新的分子生成模型。研究团队由Guanlue Li、Chenran Jiang等学者组成,来自香港科技大学、深圳湾实验室等机构。他们开发的原子-基序一致性扩散模型(AMDiff),利用联合训练范式和分层扩散架构,在生成与目标蛋白结合的分子方面取得了显著进展,为药物设计带来了新的突破。

在药物研发的征程中,精准设计能与目标蛋白紧密结合的分子结构,即新化学实体,对先导化合物的发现和优化至关重要。近年来,AI在制药领域成绩斐然,像AlphaFold革新了蛋白质结构预测,为药物设计提供了更精准的蛋白结构。但药物分子的化学空间极为广阔,传统虚拟筛选方法效率低、成本高且局限于已知结构,开发新型AI工具进行端到端的基于结构的药物发现迫在眉睫。当前,基于原子或基序的深度学习模型在3D分子生成方面虽有进展,但原子级方法常出现键长、键角不合理的问题,导致分子结构怪异;基序级方法依赖预定义库,限制了对未知化学空间的探索,难以生成新颖结构。
为解决这些难题,本文提出AMDiff。它采用联合训练范式进行多视图学习,独特的分层扩散架构能整合分子的原子和基序层面信息,实现互补信息的全面挖掘。借助无分类器引导,并将结合位点特征作为条件输入,AMDiff可在不同靶点上稳健地生成分子。

上图主要对比了基于原子和基于基序的药物设计方法的优缺点,展示了本文研究中配体生成的分层交互信息,以及AMDiff的架构,具体内容如下:
AMDiff核心是条件扩散模型,由正向扩散和反向生成过程构成。正向过程依方差计划向原子坐标加高斯噪声,反向过程则学习从噪声分布重构数据分布。通过优化正向过程后验分布与模型预测分布的KL散度来训练模型。同时,利用离散扩散模型预测原子类型,采用无分类器引导扩散,在训练时随机用空标签替换口袋特征,采样时结合条件和无条件分数估计,平衡样本质量和多样性。
AMDiff采用联合训练方式,融合原子视图和基序视图构建分子结构。原子视图以原子为基础生成多样结构,基序视图利用基序词汇表中的片段组装子图,学习先验模式,二者交互促进迁移学习。通过构建k近邻图,用消息传递机制模拟原子、基序与口袋、蛋白质原子间的相互作用,更新节点位置,预测原子类型和基序ID。
为更好捕捉分子与蛋白质相互作用的关键信息,AMDiff引入持久同调方法。利用过滤函数计算持久图,反映多尺度拓扑信息,再计算归一化持久熵,将持久图映射为高维向量表示,得到分子和口袋的拓扑指纹,融入模型优化,增强分子输出的连贯性和连接性。
训练时,构建原子视图和基序视图的分层结构,采用联合训练,设置位置损失、原子类型损失、基序位置损失和基序ID损失,通过加权求和确定最终损失,同时调整权重控制各损失项贡献。
实验选用CrossDocked数据集训练评估模型,还针对ALK和CDK4两个激酶靶点开展研究。评估指标涵盖有效性、多样性、新颖性、分子性质和亲和力等多个方面,并与多种基线模型对比。
在生成分子特性上,AMDiff表现卓越。有效性高达98.9%,远超其他模型,生成分子多样性和新颖性突出,有效探索了训练集外的化学空间。在QED、SA等分子性质指标上,AMDiff均值更接近训练集和测试集,生成分子与参考配体形状更契合。计算生成分子的键角和二面角分布,其KL散度低于原子基模型,与基序基模型FLAG相当,表明能有效捕捉几何特征和真实子结构。
针对ALK和CDK4靶点,AMDiff生成的分子亲和力预测表现最佳,QED和SA值最高,与活性化合物分布相似。生成分子与最佳对接构象的RMSD值更低,3D可视化显示其能有效识别蛋白口袋,生成的分子与参考配体形成相似的重要药效团元素,契合已知结合模式。

上图聚焦AMDiff针对CDK4靶点生成分子的情况,有力验证了模型在实际药物设计中的有效性。
面对蛋白突变,AMDiff适应性强。以ALK蛋白突变为例,生成的针对不同突变体的分子在化学空间分布有重叠也有差异,能根据突变产生差异化结构。在不同尺度的ALK口袋中,AMDiff均能成功生成可行分子,而部分基线模型在小口袋中存在局限。如下图:

从分层表示角度看,AMDiff从分层视角解决配体设计问题,有效识别配体与靶蛋白间多层次几何和化学相互作用,克服了现有方法对分子分层结构利用不足的问题,能生成有效分子,且在不同蛋白结构和口袋尺寸下表现稳健。
但AMDiff也存在局限。未考虑动态系统中的分子生成,现实中蛋白质结构会发生构象变化,后续研究应关注其动态性;模型构建中可融入更多化学和生物医学领域知识,深入探究蛋白质与生物活性配体间的相互作用及药效团元素影响;目前虽用多种指标评估设计的药物候选物,但还需与药物化学家紧密合作,通过湿实验进行体内外有效性验证,依实验结果优化生成模型。
AMDiff为基于结构的从头药物设计提供了有力工具,能生成具有新颖结构和良好性质的类药分子,在不同口袋尺寸下灵活性高,有望加速药物发现进程。其代码和数据集已公开,方便科研人员进一步研究和应用,推动药物研发领域的发展。
代码:https://github.com/guanlueli/AMDiff 文章:https://doi.org/10.48550/arXiv.2503.00975