首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AMDiff:用分层一致性扩散模型生成靶向蛋白结合分子

AMDiff:用分层一致性扩散模型生成靶向蛋白结合分子

作者头像
MindDance
发布2026-01-08 11:21:28
发布2026-01-08 11:21:28
1300
举报

近日发表于arXiv的研究论文《Molecule Generation for Target Protein Binding with Hierarchical Consistency Diffusion Model》提出了一种创新的分子生成模型。研究团队由Guanlue Li、Chenran Jiang等学者组成,来自香港科技大学、深圳湾实验室等机构。他们开发的原子-基序一致性扩散模型(AMDiff),利用联合训练范式和分层扩散架构,在生成与目标蛋白结合的分子方面取得了显著进展,为药物设计带来了新的突破。

在药物研发的征程中,精准设计能与目标蛋白紧密结合的分子结构,即新化学实体,对先导化合物的发现和优化至关重要。近年来,AI在制药领域成绩斐然,像AlphaFold革新了蛋白质结构预测,为药物设计提供了更精准的蛋白结构。但药物分子的化学空间极为广阔,传统虚拟筛选方法效率低、成本高且局限于已知结构,开发新型AI工具进行端到端的基于结构的药物发现迫在眉睫。当前,基于原子或基序的深度学习模型在3D分子生成方面虽有进展,但原子级方法常出现键长、键角不合理的问题,导致分子结构怪异;基序级方法依赖预定义库,限制了对未知化学空间的探索,难以生成新颖结构。

为解决这些难题,本文提出AMDiff。它采用联合训练范式进行多视图学习,独特的分层扩散架构能整合分子的原子和基序层面信息,实现互补信息的全面挖掘。借助无分类器引导,并将结合位点特征作为条件输入,AMDiff可在不同靶点上稳健地生成分子。

上图主要对比了基于原子和基于基序的药物设计方法的优缺点,展示了本文研究中配体生成的分层交互信息,以及AMDiff的架构,具体内容如下:

  1. 1. 基于原子和基于基序的方法对比:基于原子的方法以单个原子为基本单位构建分子结构,优势在于能生成高度多样化的分子,但在维持子结构的连贯性和真实性方面存在困难,容易出现键长和键角错误,还可能产生不稳定构型,如三元环。基于基序的方法利用从现有数据集和化学知识中提取的预定义基序库来组装分子,然而,当所需基序不在词汇表中时,会限制结构多样性,并且在连接不同基序时可能出现冲突,影响生成结构的凝聚力。
  2. 2. 配体生成的分层交互信息:将配体分解为原子和基序,在原子视图和基序视图中,分别使用专门的消息传递网络收集配体与蛋白质之间的相互作用细节(以红色虚线表示)。同时,构建了跨视图交互(以紫色虚线表示),促进原子视图和基序视图之间聚类和定位信息的交换。基序与目标口袋相互作用,为原子视图提供聚类信息,原子视图则为基序视图提供详细的定位信息,这种双向信息流确保生成的配体既能适配结合位点,又能在预定义基序词汇表之外保持结构连贯性。
  3. 3. AMDiff架构:AMDiff是一种基于扩散的分层分子生成模型,核心是一个整合了原子视图和基序视图的扩散模型,采用条件扩散方法,通过交互式去噪恢复含噪分子结构并生成新分子。在原子视图中,模型预测原子类型和位置,捕捉原子位置和相互作用的精细细节;在基序视图中,构建基序树并据此生成预测,捕获更高层次的结构模式,如功能基团和较大的分子片段。该架构设计促进了不同视图间的有效信息交换,有助于从不同粒度理解分子结构。

AMDiff核心是条件扩散模型,由正向扩散和反向生成过程构成。正向过程依方差计划向原子坐标加高斯噪声,反向过程则学习从噪声分布重构数据分布。通过优化正向过程后验分布与模型预测分布的KL散度来训练模型。同时,利用离散扩散模型预测原子类型,采用无分类器引导扩散,在训练时随机用空标签替换口袋特征,采样时结合条件和无条件分数估计,平衡样本质量和多样性。

AMDiff采用联合训练方式,融合原子视图和基序视图构建分子结构。原子视图以原子为基础生成多样结构,基序视图利用基序词汇表中的片段组装子图,学习先验模式,二者交互促进迁移学习。通过构建k近邻图,用消息传递机制模拟原子、基序与口袋、蛋白质原子间的相互作用,更新节点位置,预测原子类型和基序ID。

为更好捕捉分子与蛋白质相互作用的关键信息,AMDiff引入持久同调方法。利用过滤函数计算持久图,反映多尺度拓扑信息,再计算归一化持久熵,将持久图映射为高维向量表示,得到分子和口袋的拓扑指纹,融入模型优化,增强分子输出的连贯性和连接性。

训练时,构建原子视图和基序视图的分层结构,采用联合训练,设置位置损失、原子类型损失、基序位置损失和基序ID损失,通过加权求和确定最终损失,同时调整权重控制各损失项贡献。

实验选用CrossDocked数据集训练评估模型,还针对ALK和CDK4两个激酶靶点开展研究。评估指标涵盖有效性、多样性、新颖性、分子性质和亲和力等多个方面,并与多种基线模型对比。

在生成分子特性上,AMDiff表现卓越。有效性高达98.9%,远超其他模型,生成分子多样性和新颖性突出,有效探索了训练集外的化学空间。在QED、SA等分子性质指标上,AMDiff均值更接近训练集和测试集,生成分子与参考配体形状更契合。计算生成分子的键角和二面角分布,其KL散度低于原子基模型,与基序基模型FLAG相当,表明能有效捕捉几何特征和真实子结构。

针对ALK和CDK4靶点,AMDiff生成的分子亲和力预测表现最佳,QED和SA值最高,与活性化合物分布相似。生成分子与最佳对接构象的RMSD值更低,3D可视化显示其能有效识别蛋白口袋,生成的分子与参考配体形成相似的重要药效团元素,契合已知结合模式。

上图聚焦AMDiff针对CDK4靶点生成分子的情况,有力验证了模型在实际药物设计中的有效性。

  1. 1. a呈现AMDiff在CDK4结合口袋内的生成扩散过程。在不同时间步,原子视图和基序视图捕捉口袋特征引导生成,经跨视图交互,最终形成适配口袋的化合物1,清晰展示了原子或基序替换及视图融合优势。
  2. 2. b展示针对CDK4设计的分子特性和相互作用。多数分子能与相同氨基酸残基作用,如多个化合物与特定残基形成氢键等,结合模式符合已知情况,体现AMDiff的靶点感知能力,可利用并探索新相互作用。

面对蛋白突变,AMDiff适应性强。以ALK蛋白突变为例,生成的针对不同突变体的分子在化学空间分布有重叠也有差异,能根据突变产生差异化结构。在不同尺度的ALK口袋中,AMDiff均能成功生成可行分子,而部分基线模型在小口袋中存在局限。如下图:

  1. 1. a通过t-SNE可视化生成分子的USRCAT指纹分布,结果显示生成分子在化学空间有显著重叠,但也存在非重叠区域,表明AMDiff能探索局部变化并使生成分子有效适配目标结合位点。
  2. 2. b展示了针对不同突变体生成分子的3D结合模式和差异,这些分子能与多个突变体上的Met1199形成氢键,且AMDiff可针对1202和1206位点突变产生差异化结构,协调能量损失。
  3. 3. c对比了AMDiff与Pocket2Mol、FLAG在不同口袋尺寸下生成分子的对接得分、分子量、QED和SA得分,结果表明AMDiff在所有口袋尺度下都能成功生成可行分子,而Pocket2Mol和FLAG在小口袋时生成正常分子存在局限。
  4. 4. d用3D分子球展示了AMDiff生成分子与不同口袋尺寸的适配情况,直观体现其良好适应性。

从分层表示角度看,AMDiff从分层视角解决配体设计问题,有效识别配体与靶蛋白间多层次几何和化学相互作用,克服了现有方法对分子分层结构利用不足的问题,能生成有效分子,且在不同蛋白结构和口袋尺寸下表现稳健。

但AMDiff也存在局限。未考虑动态系统中的分子生成,现实中蛋白质结构会发生构象变化,后续研究应关注其动态性;模型构建中可融入更多化学和生物医学领域知识,深入探究蛋白质与生物活性配体间的相互作用及药效团元素影响;目前虽用多种指标评估设计的药物候选物,但还需与药物化学家紧密合作,通过湿实验进行体内外有效性验证,依实验结果优化生成模型。

AMDiff为基于结构的从头药物设计提供了有力工具,能生成具有新颖结构和良好性质的类药分子,在不同口袋尺寸下灵活性高,有望加速药物发现进程。其代码和数据集已公开,方便科研人员进一步研究和应用,推动药物研发领域的发展。

代码:https://github.com/guanlueli/AMDiff 文章:https://doi.org/10.48550/arXiv.2503.00975

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档