生成式药物设计有助于创造出有效对抗致病靶蛋白的化合物。这为在广阔的化学空间中发现新型化合物提供了可能,并促进了创新治疗策略的开发。然而,生成分子的实用性往往受到限制,因为许多设计只关注一组与药物相关的狭窄特性,无法提高后续药物发现过程的成功率。
为了克服这些挑战,全球健康药物研发中心(GHDDI)与微软研究院科学智能中心合作开发了最新AI药物设计平台TamGen。2024年10月29日,相关研究发表在Nature Communications上,题为TamGen: drug design with target-aware molecule generation through a chemical language model。
TamGen通过基于Transformer自注意力机制的生成式AI模型,实现了针对致病靶蛋白的分子精准生成、优化以及合成与生物实验验证,开辟了创新药物发现的新路径,特别是在抗药性结核病等传染性疾病的研究中有广阔应用前景。
研究人员用三个模块实现了TamGen:(1) 化合物解码器,这是一个类似于GPT的化学语言模型,也是TamGen的核心组件,为在化学空间生成化合物奠定了基础;(2) 蛋白质编码器,这是一个基于Transformer的模型,用于编码目标蛋白质的结合口袋;(3) 上下文编码器,用于化合物编码和细化。
图1 TamGen模型框架
以ChatGPT为代表的生成式AI技术正在彻底改变药物研发领域。生成式药物设计能够从零开始创建全新分子或化合物,而无需依赖于现有的模板或分子框架。传统筛选方法,如高通量筛选、虚拟筛选,以及最新的基于深度学习的筛选,通常从包含10,000到1亿个分子的化合物库中寻找候选药物。而生成式药物设计则可以探索广阔的化学空间,估计这个空间包含超过10的60次方个潜在化合物。
这种方法有望发现一些未被充分研究的化合物类别,以及不在现有库中的新型化合物。然而,以往生成式方法生成的化合物往往缺乏令人满意的药物特性。这些方法通常只关注有限的药物相关属性,未能显著提高后续药物发现过程的成功率。另外,即使采用多种虚拟筛选技术,在如此庞大的化学空间中针对不同靶点进行筛选仍需要大量计算资源和时间,同时需考虑模型准确率的影响。换句话说,尽管AI生成了大量新型化合物,但现有方法在提供有效候选药物方面仍然面临挑战。
为了应对生成式药物设计面临的挑战,全球健康药物研发中心(GHDDI)与微软研究院科学智能中心联合开发了TamGen。其创新之处在于,在类GPT生成模型的基础上加入了交叉注意力机制,并通过学习大量的已知和模拟的蛋白-配体结构数据,使得模型在生成新的化学分子时,能够同时考虑致病靶蛋白的信息。这一改进使TamGen能够基于靶蛋白活性位点信息精准生成具备潜在相互作用的分子,进而增强分子生成的靶向性以及药物设计的合理性与精准度,再结合分子模拟、细胞活性AI模型与专家经验进一步虚拟筛选与优化,从而大幅提升发现候选药物的效率与成功率。
为了衡量TamGen的整体性能,研究人员将本文的方法与最近提出的五种方法进行了比较:liGAN、3D-AR(提出的方法没有缩写,因此将其称为3D-AR)、Pocket2Mol、ResGen和TargetDiff。这些方法的重点是在三维空间中直接生成化合物,利用不同的深度学习技术匹配蛋白质结合口袋。使用每种方法分别为CrossDocked2020测试集中的每个目标蛋白质生成了100个化合物。然后,我们使用一套综合指标对所设计的化合物进行了评估。
虽然每种方法在某些指标上都有优势,但TamGen一直名列前茅。这一发现表明,TamGen能够在生成过程中同时优化化合物的多个方面。
图2 TamGen在复合生成方面达到了最先进的性能
与其他方法相比,TamGen的效率也是最高的。研究人员测试了使用一个A6000 GPU为所有方法的每个目标生成100个化合物所需的壁垒时间。其他方法需要几十分钟或几个小时才能完成这项任务,而TamGen平均只需9秒就能完成。这使得TamGen的速度分别比ResGen、TargetDiff、Pocket2Mol和3D-AR快85、154、213和394倍。
总之,研究结果表明,TamGen在生成新化合物方面既有效又高效。
接下来,研究人员利用TamGen设计了针对ClpP的小分子抑制剂。除了之前发现的硼替佐米(Bortezomib)之外,目前还没有记录在案的先进抗生素ClpP抑制剂。因此,研究人员利用TamGen生成了针对结核分枝杆菌(Mtb)ClpP的化合物。结核分枝杆菌是一种急需新型候选药物的病原菌。此次采用了由TamGen驱动的 “设计-定义-测试 ”流程来确定潜在的ClpP抑制剂。
图3 结核病药物生成的 “设计-定义-测试 ”流程图
为加速验证并提升测试效率,研究人员从商业库筛选出159个与TamGen生成化合物相似的市售化合物,其中5个在ClpP1P2肽酶活性实验中显著抑制,且IC50值均低于20μM。为探索结构-活性关系,合成了包括Syn-A003-01在内的新化合物,发现氯取代三氟甲基能提升抑制活性。Analog-005的衍生物也保持了相似的抑制效率。TamGen驱动的药物设计展现了高确认率,为更有效的文库搜索提供了新方法,降低了筛选成本,克服了新分子合成与验证的挑战。
图4 设计化合物的可视化和实验验证
GHDDI数据科学平台负责人郭博士表示:“传统的生成式AI设计方法更像是先造出无数把钥匙,再一把一把地试能否打开门。而TamGen则像是在比对锁眼,更精确地匹配钥匙。”
TamGen是一种高效的人工智能化合物生成方法,能加速药物发现过程并探索更广阔的化学空间。其成功源于三大因素:预训练模型提供的化学知识、有效的结合口袋表示法,以及基于变异自动编码器的上下文解码器。这些因素助力生成高质量、多样且具药物相似性的化合物。TamGen采用“设计-定义-测试”流程,通过迭代生成与改进,成功设计出针对结核分枝杆菌ClpP蛋白酶的强抑制剂。此流程允许在初步筛选后,利用先前发现的抑制剂不断完善化合物,极大提高了生成更优抑制剂的可能性,展现了TamGen在药物发现中的巨大潜力。
下一步,TamGen的工作方向将集中在整合更多三维生成方法的优势,比如采用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)或分子动力学模拟技术,进一步改善生成化合物与靶蛋白结合能力及其他重要药物性质,如稳定性、合成可能性以及ADME/T特性。
参考资料:
https://www.nature.com/articles/s41467-024-53632-4