前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Chem. Sci. | 机器学习设计非溶血性抗菌肽

Chem. Sci. | 机器学习设计非溶血性抗菌肽

作者头像
智能生信
发布2021-06-24 21:46:13
发布2021-06-24 21:46:13
1K0
举报
文章被收录于专栏:智能生信智能生信

编译 | 周珍冉 审稿 | 王玉杰

今天给大家介绍来自瑞士伯尔尼大学和日内瓦大学的Alice Capecchi,Xingguang Cai等人发表在Chemical Science的文章“Machine learning designs non-hemolytic antimicrobial peptides“,作者使用来自DBAASP的数据训练循环神经网络(Recurrent neural networks, RNN)来设计非溶血性抗菌肽(Antimicrobial peptides, AMP),合成并测试了28个生成肽,鉴定出针对绿脓杆菌、鲍曼不动杆菌和耐甲氧西林金黄色葡萄球菌 (MRSA) 的8种新的非溶血性 AMP。结果表明机器学习(Machine learning, ML)可以用来设计非溶血性AMP。

1

简介

计算机可用于辅助药物发现,ML允许人们利用已知药物的实验结构-活性数据来生成新分子并预测它们的特性和活性。生成新分子一般分为两步:首先进行生成模型的训练;然后针对一组特定的特征对生成模型进行fine-tuning。在计算肽设计领域,可以使用氨基酸的线性序列作为肽结构的输入,使用结构-活性数据来训练用于生成和活性分类的ML模型。

因为AMP拥有较大的公开结构-活性数据库,ML研究主要集中于AMP设计。AMP是由微生物、植物和动物合成,通常对多重耐药菌表现出良好的活性。大多数 AMP通过破坏细菌膜起作用,通过在膜表面折叠成两亲性α-螺旋,这种机制不容易产生抗性,因此被广泛用于指导新 AMP 的设计。但是设计两亲性通常会导致化合物对真核细胞膜缺乏选择性并显示出溶血性,极大地限制了它们的使用。

因此,作者使用ML进行AMP设计时同时考虑了活性和溶血性,在活性、非活性、溶血性和非溶血性的序列集上训练模型,并且计划仅通过测试与已知AMP有本质不同的序列来验证ML是否可以用来识别新的AMP。作者使用DBAASP(多肽的抗菌活性和结构数据库)的序列信息和抗菌活性、溶血性数据,训练一个用于生成和预测的RNN组合。使用迁移学习(Transfer learning, TL)对生成模型进行fine-tuning,使生成的肽序列针对绿脓杆菌、鲍曼不动杆菌和MRSA三种病原体。接着,为了在生成序列中筛选出非溶血性AMP,使用了两个RNN分类器用于预测抗菌活性和溶血性。作者第一次将监督学习和无监督学习结合,最大限度地利用了高度精选后的数据,合成并测试了28个筛选出的生成序列,结果产生了12个新的活性AMP,其中有8个具有非溶血性。

2

模型

1.DDBAASP

作者在阈值为32 μg mL -1和 10 μM 的情况下,鉴定了 4774 个活性和 1867 个非活性线性肽。设置至少在50 μM 的浓度下引起小于 20% 的溶血为非溶血性,而在任何浓度下引起超过 20% 溶血的肽为溶血性的,获得1319 个溶血性和943 个非溶血性线性肽序列。

2.生成模型

为了解决DBAASP中特定菌株数据稀少带来的问题,作者首先在整个DBAASP上训练了一个通用的生成模型,接着,用较小的 AMP 子集对其进行了fine-tuning。

具体操作如下:

将DBAASP中的 4774 个活性肽分为训练集和测试集,训练集用于训练 RNN 生成模型来生成 AMPs(先验模型)。然后,通过使用具有特定活性和已知非溶血性的两组较小的序列集对具有 TL 的先验模型进行fine-tunig,推导出两个生成模型:

(1)在先验模型的训练集中存在的242个对绿脓杆菌、鲍曼不动杆菌有活性的非溶血性肽序列(模型a);

(2)在先验模型的训练集中存在的321个对MRSA有活性的非溶血性肽序列(模型b)。

然后,从两个生成模型中各采样50000个肽序列。

图1.策略示意图

3.分类器

使用NB(朴素贝叶斯)、SVM(支持向量机模型)、RF(随机森林)和 RNN AMP活性分类器来评估先验模型并预测生成肽序列的AMP活性。使用先验模型的相同训练/测试分组中的 DBAASP 活性化合物作为正类,使用了一组同样大小的非活性序列作为负类(由 DBAASP 中的所有非活性序列以及通过干扰活性肽和分段 SwissProt 条目生成的附加序列组成)。图2(b)显示RNN活性分类器的指标表现最佳,用于进一步的研究。溶血性分类器实现与活性分类器一致,其中非溶血序列作为正类,溶血性序列作为负类。

图2. NB、RF、SVM、RNN 以及带干扰标签(RNN scr.)模型

用于活性(b)和溶血性(c)分类的测试集ROC曲线图

4.筛选序列

RNN AMP活性分类器和溶血性分类器用于过滤从两个生成模型各采样的50000条肽序列,分别得到3046条(模型a)和2717条序列(模型b)(图1)。为促进合成过程,作者排除了超过15个氨基酸长的序列(图3.a);进一步过滤序列以确保新颖性,考虑到测试组肽中至少有四个突变,作者进一步挑战模型的训练组肽中至少有五个突变(图3.b-e);最后,排除包含D残基的序列(图3.f)。分别从两个生成模型中过滤出了148个和160个肽。

图3. 属性分布和过滤器

接着,根据两种策略来进一步筛选序列:

(1)使用计算的疏水矩和预测的α-螺旋分数作为两亲性螺旋的估计值来进一步过滤序列并进行聚类;

(2)从每个肽池中随机抽取 10 个序列以遵循模型采样分布。

经过过滤和筛选后,分别获得20条和26条序列,每组再手动筛选出14条用于实验评估。最终获得的序列都至少有5个位置与AMP活性和溶血性分类器的训练集和测试集不同,来自模型a的序列标记为GN(Gram-阴性靶向化合物),来自模型b的序列标记为GP(Gram-阳性靶向化合物)。

3

合成与测试

作者通过多肽固相合成法合成了选定的 14 种 GN 和 14 种 GP 肽。通过在 Muller-Hinton 培养基中通过肉汤微量稀释测定确定对细菌的最小抑制浓度(MIC)和通过在磷酸盐缓冲盐水中连续稀释对人红细胞的最小溶血浓度(MHC)来评估其 HPLC 纯化的三氟乙酸盐的活性。表1测定结果显示,GN肽中有9种活性肽,6种对绿脓杆菌、鲍曼不动杆菌均有活性和非溶血性,GP肽中只有3种对MRSA有活性,其中2种有非溶血性。

表1.生成肽的合成和活性

接着,表现最佳的GN1和GP1进行测试,结果显示两个序列都具有两亲性。圆二色性(CD)光谱显示两种肽在纯水中都是无序的,但在模拟膜环境的正十二烷基磷酸胆碱 (DPC)胶束存在下采用了α-螺旋构象。GN1(89% α-helix with 5 mM DPC)的效果非常强,尽管GP1(56% α-helix with 5 mM DPC)序列中存在一个破坏螺旋的脯氨酸残基,效果依旧非常强(图4.b)。

图4.(a)CD光谱数据;

(b)使用DichroWeb从初级CD数据中提取二级结构的百分比;

(c) HeliQuest预测的螺旋特性

为确认由CD确定的二级结构,作者使用了GROMACS对GN1、GP1和GN2进行了 MD(分子动力学)模拟,图5结果证实了膜状环境中的螺旋二级结构行为。总之,CD、MD和序列分析结果指出,膜破坏是作者合成的AMP的可能作用机制。

图5. 使用GROMACS在水中和在DPC胶束存在下的250ns期间对GN1进行MD模拟。

4

结论

作者使用从DBAASP中提取的AMP、非AMP数据集,以及溶血性和非溶血性数据来训练生成模型(先验模型)、AMP活性分类器和溶血性分类器。使用针对特定菌株的活性和非溶血性肽分别对先验模型的两个副本进行fine-tuning。接着,对fine-tuning后的模型进行采样,使用分类器、基本理化特性和新颖性标准过滤,最终获得最多15个残基长且至少有5个突变的短肽。并在28种合成肽中检测到有12种对设计使用的病原体具有活性,其中8种对 MHC ≥500 μg mL -1 的人血细胞显示出低溶血性。实验证明,ML能够设计非溶血性AMP。

参考资料

Capecchi, A., Cai, X., Personne, H., Kohler, T., Van Delden, C., Reymond, J.-L., 2021. Machine Learning Designs Non-Hemolytic Antimicrobial Peptides. Chemical Science.. doi:10.1039/d1sc01713f

论文链接:

https://pubs.rsc.org/en/content/articlehtml/2021/sc/d1sc01713f

代码&数据集:

https://github.com/reymond-group/MLpeptide

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档