近日,由中南大学湘雅药学院曹东升教授和蒋德军副教授团队,在国际知名期刊《Chemical Science》发表了题为《Decoding the limits of deep learning in molecular docking for drug discovery 》的研究论文。该工作系统评估了传统分子对接方法与基于深度学习的新型对接范式在药物发现中的性能与前景,为推动更稳健、更具泛化能力的分子对接工具开发提供了关键见解。
药物研发因其漫长的周期、高昂的成本和固有的不确定性而面临巨大挑战,而先导化合物发现与优化是这一过程的核心环节。基于结构的分子对接方法已成为先导化合物研发的重要工具,其通过模拟蛋白质与配体的相互作用,预测稳定复合物构象并评估结合亲和力,为药物设计提供关键参考。
近年来,随着计算能力的提升和海量数据的积累,人工智能尤其是深度学习技术在分子对接领域迅速崛起。通过深度学习强大的学习和处理能力预测结合构象与自由能,绕过传统方法中计算密集的构象搜索,显著提升效率与准确性。
然而,深度学习对接方法的快速发展也带来了新的挑战:如何将计算机模拟预测转化为药物研发实践?多数研究聚焦于结合构象预测,且依赖单一评估指标,忽略了预测构象的物理合理性、关键相互作用的重现能力以及在虚拟筛选中的实际效能,其在新型蛋白质结合口袋等场景下的泛化能力也亟待探索。
针对上述问题,研究团队对现有小分子-蛋白质对接方法进行了系统的多维度评估,涵盖传统基于物理的方法(Glide SP、AutoDock Vina)、生成扩散模型(SurfDock、DiffBindFR、DynamicBind)、回归模型(KarmaDock、GAABind、QuickBind)以及混合方法(Interformer)四大类。从结合构象预测精度、物理合理性、相互作用恢复能力、虚拟筛选效能以及在不同蛋白质-配体场景中的泛化能力五个关键维度进行了系统评估。
图1.系统化基准测试流程与分子对接范式概览
研究揭示了各类方法的核心特征:生成扩散模型在构象准确性上优势明显,但物理合理性有待提升,主要受限于分子间空间冲突;混合方法通过整合传统构象搜索与深度学习打分,实现了性能平衡;回归模型因单点预测范式,在物理合理性和相互作用恢复上存在固有局限;传统方法则凭借物理原理,在物理合理性和泛化稳定性上表现稳健。
图2.基准数据集上的对接精度与物理合理性
图3.对接方法的泛化性能
此外,研究还从模型架构深入剖析了性能局限:扩散模型的采样与打分分步过程可能导致构象缺乏最优分子间合理性;回归模型直接预测原子坐标或蛋白-配体距离矩阵易引入几何误差;而蛋白质柔性的忽视是各类方法共同面临的挑战,尤其影响 GPCRs 等柔性靶点的对接性能。
图4.对接范式的概念比较与性能定性总结
基于上述发现,团队提出了针对性的优化方向:① 改进扩散模型的置信度模块与打分函数,引导采样向更现实的构象发展; ② 为回归模型融入物理约束,可以预测配体的平移、旋转和内部扭转角以提升构象合理性;③ 增强混合方法的搜索效率,结合扩散采样技术与高精度混合打分函数;④ 所有方法均需加强对蛋白质-配体柔性的联合建模,或通过粗粒度先验隐式整合柔性信息。
未来研究将聚焦于提升深度学习方法的物理合理性与泛化能力,拓展训练数据多样性,并在实际虚拟筛选与先导化合物优化中验证其效用,推动分子对接技术在药物发现中的更广泛应用。
该研究为分子对接工具的选择提供了实用指导,也为开发更稳健、更具泛化能力的深度学习分子对接框架奠定了基础。未来,随着这些优化策略的实施和技术的不断进步,分子对接技术有望在药物研发中发挥更大作用,加速新型治疗药物的研发进程,助力更多治疗性突破的实现。
投稿人 | 李 越
责 编 | 许燕红
审 核 | 蒋德军