
DRUGONE
为应对不断加剧的抗生素耐药危机,研究人员开发了一种基于生成式人工智能的大规模抗菌肽(AMPs)发现策略。AMPs 具有广谱活性、快速杀菌机制以及较低的耐药风险,是传统抗生素的有前景替代物。本研究构建了一个名为 ProteoGPT 的蛋白质大语言模型(LLM),并通过迁移学习发展出多个子模型(AMPSorter、BioToxiPept、AMPGenix),形成一个串联的智能筛选流程,实现了对上亿肽序列的高通量筛选与生成。所挖掘和生成的 AMPs 在临床来源的碳青霉烯耐药鲍曼不动杆菌(CRAB)和耐甲氧西林金黄色葡萄球菌(MRSA)中表现出低耐药风险;在小鼠感染模型中,治疗效果与临床抗生素相当甚至更优,且无器官损伤或肠道菌群紊乱。机制研究显示,这些 AMPs 通过破坏细胞质膜并引发膜去极化实现杀菌。本研究展示了一种生成式人工智能驱动的抗菌肽发现框架,为多重耐药菌治疗提供了新方向。

世界卫生组织已将多重耐药细菌列入紧急威胁名单,其中碳青霉烯耐药鲍曼不动杆菌(CRAB)居首。碳青霉烯类抗生素是“最后防线”,但极易失效。相比传统药物,抗菌肽具有较低的耐药发生速率,因此被视为理想替代方案。
大语言模型(LLMs)作为自然语言理解的重要突破,凭借庞大的参数和Transformer架构,正在重塑科学研究。然而通用 LLM 对科学数据(如蛋白质、基因、分子)理解有限,因此需要开发面向科学领域的专用模型。研究人员据此构建了一个专为蛋白序列空间设计的 LLM —— ProteoGPT,并通过迁移学习扩展其功能,以实现高通量的抗菌肽挖掘与生成。
方法
研究人员构建了一个含 1.24 亿参数 的蛋白语言模型 ProteoGPT,以 UniProtKB/Swiss-Prot 数据库的 60 万余条高质量蛋白序列为训练基础。随后通过迁移学习建立三个子模型:
这三者组成了一个自动化管线 SPEL (Sequential Pipeline Ensembled by LLMs),集成数据挖掘与生成式设计两种策略,并结合湿实验验证以评估候选肽的抗菌活性和安全性。
结果
ProteoGPT 的构建与迁移学习
ProteoGPT 在自监督任务上预训练后,表现出良好的泛化性。其基于高质量 Swiss-Prot 数据构建,与依赖未筛选数据的模型相比,具备更高的生物学合理性。迁移学习后:


高通量抗菌肽挖掘与生成
利用滑动窗口技术,研究人员从 60 万条蛋白序列中提取出 4.1 亿条短肽(8–30 个氨基酸),通过 AMPSorter 与 BioToxiPept 筛选得到 1.21 亿条候选抗菌肽(m_AMPs),其中 8,000 万条被评为无毒肽。
同时,AMPGenix 生成了约 7,798 条全新肽序列(g_AMPs),其中约 76% 被预测为抗菌肽。
在初步实验中,生成的 PT 系列肽 中有 18/20 展现抑菌活性,其中 6 条(PT-1, 4, 12, 15, 18, 20)对多种细菌及真菌表现出广谱效应,最低 MIC 达 1 μg/mL。

体外抗菌与毒性实验
通过抑菌圈、MIC 和细胞毒性测试,共评估了 154 条 m_AMPs 与 42 条 g_AMPs:

小鼠感染模型验证
在 CRAB 与 MRSA 大腿感染模型中:
耐药实验表明,AMPs 经过 20 代传代后 MIC 变化不显著,而对照抗生素(如多黏菌素B、万古霉素)耐药性显著上升。

作用机制解析
扫描电镜与荧光探针分析显示:
讨论
本研究提出了一个统一的生成式人工智能框架,能够同时执行抗菌肽的挖掘与生成,显著提升新型抗菌分子的发现效率。
ProteoGPT 及其子模型的优势在于:
生成模型(AMPGenix)所产生的 g_AMPs 在活性和多样性上普遍优于数据挖掘获得的 m_AMPs,说明生成式学习能捕获更丰富的抗菌结构模式。
未来,研究人员计划进一步引入量化预测模块,以克服当前 QSAR 偏向带电肽的局限,实现更全面的 AMP 活性预测。
整理 | DrugOne团队
参考资料
Wang, Y., Zhao, L., Li, Z. et al. A generative artificial intelligence approach for the discovery of antimicrobial peptides against multidrug-resistant bacteria. Nat Microbiol (2025).
https://doi.org/10.1038/s41564-025-02114-4
内容为【DrugOne】公众号原创|转载请注明来源