本文介绍一篇来自浙江大学侯廷军和谢昌谕团队、南部战区总医院姜志辉主任团队和碳硅智慧联合发表的一篇论文。该研究提出了一种基于大语言模型的抗菌肽(AMPs)设计方法AMP-Designer,在48天内,完成了18种抗菌肽的从头设计与湿实验的验证。体外抗菌实验结果表明,17种抗菌肽对革兰氏阴性菌展现出广谱抗菌活性,成功率高达94.4%。其中,2个优选抗菌肽不仅表现出优异的体内抗菌效果,同时兼具极低的溶血毒性、良好的人体血浆稳定性以及很低的耐药性诱导风险。这一研究成果为应对日益严峻的抗生素耐药性问题提供了新的解决方案和研究方向。
研究背景
抗生素耐药(AMR)对人类健康构成重大全球威胁。2019年,全球近495万例死亡与AMR相关,其中革兰氏阴性菌耐药尤为棘手,它们对大多数临床常用抗生素产生了耐药。抗菌肽(AMPs)因其结构和功能的多样性、良好疗效以及较低的诱导耐药性,被视为传统小分子抗生素的潜在替代品。然而,与小分子抗生素相比,许多AMPs也存在严重局限,如抗菌活性相对较低、潜在毒性较大、在生产和运输过程中易失活,阻碍了其广泛应用。
传统设计方法通常是优化现有AMPs或用预测模型在大规模肽空间中穷举筛选,但肽序列空间巨大,发现新AMPs极具挑战。近年来大语言模型的飞速发展以及相关技术的不断进步给AMPs设计带来了新的思路。本研究提出了基于大语言模型的抗菌肽设计方法AMP-Designer。该方法借助大语言模型,融合提示学习、模型蒸馏和强化学习等大模型相关技术实现了抗菌肽的高效设计。
图1. AMP-Designer流程示意图
方法概述
AMP-Designer工作流程详情如图1所示。首先选择基座模型GPT,以UniProt数据库中提取的多肽数据集进行预训练,得到多肽大语言模型AMP-GPT(图1c)。紧接着,通过对比提示学习,在抗菌肽数据集上开展提示微调,得到AMP-Prompt模型(图1d)。为有效削减后续强化学习环节所面临的计算成本压力,研究团队将AMP-Prompt模型进行蒸馏,得到AMP-Distillation模型(图1e)。最终,利用强化学习方法,针对生成的AMPs的多项特性进行优化(图1f)。在这一系列过程中,研究团队专门构建了针对不同种类细菌的最低抑菌浓度(MIC)预测模型AMP-MIC,该模型在强化学习筛选阶段提供反馈。
结果与讨论
理化性质分析
首先对生成多肽的理化性质分布进行可视化。如图2所示,AMP-GPT生成的肽的理化性质分布与UniProt训练数据集的分布相似。这一结果表明,AMP-GPT有效地学习了UniProt训练数据集中肽的理化特征。在对比提示学习之后,这些新生成的肽的性质更接近真实的抗菌肽,这表明提示微调是有效的。作者在提示学习后进一步采用了top-k采样法生成肽,发现与传统的基于温度的采样方法相比,top-k采样得到的肽的分布具有更高的全局电荷,且其理化性质更类似于真实抗菌肽。最后,蒸馏模型生成的肽序列的理化性质分布与教师模型生成的高度相似,这表明它成功学习到了教师模型的概率分布。
图2. 理化性质分布
抗菌能力分析
为评估所生成的肽,作者运用了三种不同的抗菌肽分类器来评估模型生成多肽的抗菌能力。图3a-c展示了基于提示的模型在所有三个预测器中的性能有显著提升。特别是,由Prompt-TopK生成的肽展现出与真实抗菌肽极为相似的生物活性分布。通常,当预测器输出为0.5或更高时,会将一个序列判定为有活性的抗菌肽。显然,各种模型生成的候选抗菌肽的性能在所有三个预测器中均与预期相符。值得注意的是,AMP-GPT展现出强大的从UniProt中的肽数据学习的能力,因为所生成的肽在所有三个预测器中的活性概率分布与来自UniProt的肽序列相似,始终低于0.5。然而,经过提示微调,该模型生成的候选抗菌肽的活性概率与真实抗菌肽相当。尤其是,Prompt-TopK变体的性能甚至超过了真实抗菌肽,概率集中在1附近。为进一步探究生成肽的多样性,作者进行序列比对,并计算生成序列的匹配分数(图3d-e)。结果显示,与其他模型相比,本研究提出的方法生成的多肽序列有着不错的多样性。
图3. 活性分布
体外实验结果
作者对预测排名前20种候选抗菌肽展开体外抗菌活性测试(2个肽未能成功合成)。首先,测定了这些抗菌肽针对ESKAPE病原体六种标准菌株的MIC值。如表1所示,18种候选抗菌肽中有17种对至少一种菌株展现出显著抗菌活性。此外,这些最初针对铜绿假单胞菌和大肠杆菌设计的抗菌肽,对肺炎克雷伯菌和鲍曼不动杆菌也表现出显著活性。AI18、KW13、KW20、RV15和GI16对革兰氏阴性菌(MIC范围为4至16μg/ml)和革兰氏阳性菌(MIC范围为8至32μg/ml)表现出相对最高的抗菌活性。
小鼠实验结果
作者优选了抗菌肽KW13和AI18在多药耐药肺炎克雷伯菌感染的肺炎小鼠模型上测试了体内抗感染活性,实验设置如图4a所示。2个抗菌肽治疗组的肺部细菌载量降低约99%,显著低于空白对照PBS组,其治疗效果与阳性对照抗菌肽Indolicidin相当(图4b)。组织病理学分析显示,经KW13、AI18和Indolicidin治疗后的肺部恢复健康,肺泡形态清晰,而PBS组因细菌感染出现严重组织损伤(图4c)。
图4. KW13和AI18治疗小鼠肺炎的体内疗效
总结
AMP-Designer是一个即插即用的框架,基于训练好的基础模型AMP-GPT,仅需3天左右即可完成特定AMP的设计。即使在标记数据严重受限的情况下,如针对痤疮丙酸杆菌,也能成功设计出有效的AMPs,展现出巨大的科学价值和转化应用前景。
参考资料
Wang J, Feng J, Kang Y, et al., Discovery of antimicrobial peptides with notable antibacterial potency by an LLM-based foundation model. Sci. Adv., 2025, DOI:10.1126/sciadv.ads8932