DRUGAI
今天为大家介绍的是来自美国杜克大学Pranam Chatterjee团队的一篇论文。设计结合剂以靶向难成药蛋白在药物研发中是一项重大挑战。在本研究中,作者提供了一个算法框架,用于设计短小、能与靶点结合的线性肽,仅需靶蛋白的氨基酸序列。为此,作者提出了一个通过ESM-2蛋白质语言模型的肽潜在空间高斯扰动来生成自然状态肽候选物的过程,随后通过基于对比语言-图像预训练(CLIP)的对比学习架构筛选这些新序列的靶点选择性相互作用活性。通过整合这些生成性和判别性步骤,作者创建了一个通过CLIP进行肽优先排序(PepPrCLIP)的流程,并通过实验验证了高排名、靶点特异性肽的有效性,包括作为抑制性肽和与E3泛素连接酶域的融合。PepPrCLIP衍生的构建体在体外展示了对构象多样、疾病驱动靶点的功能性强结合和降解能力。总体而言,PepPrCLIP使得调控先前无法接触的蛋白成为可能,而无需依赖稳定有序的三级结构。
超过80%的致病蛋白被认为是标准小分子抑制剂"难以成药"的,因为它们通常缺乏假定的稳定结合口袋。靶向蛋白降解已成为治疗疾病的一种有前途的替代方法,但主要依赖于小分子弹头结合并招募内源性E3泛素连接酶到靶点,因此仍然需要存在可接触的表面结合位点。基于蛋白质的模式,无论是作为独立结合剂还是效应域的招募者,因此代表了靶向这些蛋白质的有吸引力的平台,因为它们不需要表面口袋来结合。因此,已经开发了许多方法来利用基于蛋白质的结合域设计细胞内蛋白降解剂。这些方法,如bioPROTACs、AdPROMs和泛素抗体(uAbs),依赖于现成结合剂的存在,因此阻碍了针对新靶标底物的降解剂设计。尽管领域仍在持续推进,但这些方法,如最先进的RFDiffusion生成模型,依赖于靶蛋白的三维结构信息进行结合剂设计,使得对非结构化和内在无序蛋白的设计变得具有挑战性,而这些蛋白构成了难成药蛋白组的很大一部分。
近年来,蛋白质语言模型(pLMs)已在数百万种天然蛋白质序列上进行了预训练,生成掌握相关物理化学、功能和最显著的三级结构信息的潜在嵌入。早期结果表明,基于序列的蛋白质transformer可以产生具有功能能力的新型蛋白质序列。受这些发现的启发,作者在此开发了一个模型,用于de novo设计的靶点结合肽基序,仅需要靶蛋白的氨基酸序列。受OpenAI 的CLIP研究工作的启发,作者首先利用ESM-2 pLM通过对真实肽结合剂序列的嵌入应用高斯噪声来生成不同但自然的肽候选物。然后,作者通过基于CLIP的对比潜在空间筛选这些候选物的靶点选择性相互作用活性,该空间经训练可以共同编码配对的肽-蛋白对。作者由此产生的通过CLIP进行肽优先排序(PepPrCLIP)流程整合了生成-判别框架,优先考虑具有结合输入靶序列能力的全新肽候选物。
模型部分
CLIP模型通过对比学习训练,将图像与其文本描述相关联,学习将正确匹配的配对排在不正确的配对之前。随后,DALL-E 2作为一个去噪扩散模型,使用CLIP潜在空间来生成与相关文本提示条件下的逼真图像。因此,作者假设,正如CLIP使用共同训练的图像和标题编码器连接图像与其对应标题一样,作者可以利用基于CLIP的架构,使用共同训练的肽和靶蛋白编码器将靶蛋白映射到其对应的结合肽。
图 1
具体来说,作者让模型预测所有n²个靶点和肽对在矩阵中的余弦相似度,并在训练期间计算该矩阵行和列的交叉熵损失平均值。作者进一步使用Meta AI最先进的ESM-2-650M模型权重为配对的靶点和肽生成特征丰富的嵌入作为模型输入(图1A)。
数据集
为构建训练此模型的数据集,作者首先考虑了蛋白质数据库(PDB)中的每一个相互作用结构,并特别过滤以创建适当的训练和测试数据集。为了在广泛分布的肽-蛋白对上进行训练,作者生成了一个"嘈杂"(noisy)数据集,其中考虑了强和较弱的相互作用(共晶埋藏表面积≥50 Ų),并考虑了所有短蛋白(<50个氨基酸)与另一个较大蛋白之间的相互作用。为了对模型进行严格评估,作者创建了一个"严格"的肽-蛋白测试数据集,其中仅包括强相互作用(共晶埋藏表面积≥400 Ų),肽长度≤25个氨基酸,靶蛋白长度≥30个氨基酸。这些参数等同于最近PepNN模型的数据集,PepNN是一种准确预测靶蛋白上肽结合位点的深度注意力模型。总体而言,使用MMSeqs2在30%序列一致性下对数据集进行聚类,确保训练集和测试集之间有实质性的序列多样性。过滤和聚类后,嘈杂训练集包含11,597对肽-蛋白对,验证集和测试集分别有1241和1376对。严格训练集包含7388对肽-蛋白对,验证集和测试集分别有737和1002对。
模型评估
评估时,作者使用三个关键指标:二元准确率、前1准确率和前10%准确率。二元准确率是模型在给定两个蛋白质-肽对时预测正确结合对的准确性。前1准确率是对于给定蛋白质,模型从数据集中随机抽样的64个肽中选择正确结合肽的可能性,前10%准确率是该肽在按CLIP得分对该蛋白排名时位于前10%肽中的可能性。因此,前10%准确率使作者能够衡量模型准确排序一组肽候选物的能力。如果可用于筛选的资源有限,高前10%准确率提供了信心,表明模型将优先考虑高质量的肽候选物。
作者的结果表明,在嘈杂数据集上训练CLIP模型(一项更困难的结合预测任务)能够在更严格的保留测试集上表现稳健,展示了95.4%的二元准确率,以及0.82的前10%准确率和0.53的前1准确率。相比之下,仅在严格数据集上训练和测试得到较低的92.7%二元准确率,以及较差的前10%和前1准确率,分别为0.74和0.42,证明了作者的迁移学习方法的合理性(图1B)。作者进一步对CLIP模型的输入嵌入进行了消融研究,并证明当遵循两种训练范式时,与简单的学习嵌入或BLOSUM62嵌入相比,为肽和靶点编码器部署ESM-2嵌入对于高性能至关重要,强调了利用有表现力的预训练pLM嵌入的重要性。
最后,作为验证优化模型区分结合和不结合的肽-蛋白对能力的额外方法,作者比较了对测试数据集中约1000个保留的真实相互作用对和假定不相互作用的约500,000个错配对的预测CLIP得分。作为可视化,相互作用肽-蛋白对的CLIP得分分布严重偏向+1(均值0.902;方差0.056),而错配的非相互作用对的CLIP得分分布在0周围(均值0.025;方差0.136)(图1C)。需要注意的是,作者在错配对的分布中观察到一组假阳性,这是一种预期现象,因为天然肽很少对其靶点具有高度特异性。尽管如此,作者的结果表明,CLIP模型能够稳健地为提供的靶序列选择并高度排序靶点结合肽,从而激励其用于从头开始的肽优先排序。
高斯扰动生成自然状态肽用于CLIP优先排序
大约存在10^26种可能的20核苷酸寡聚体肽——对于给定靶点来说,无论是在体内还是体外,这都是一个太大而无法详尽筛选的空间。此外,这些可能肽中只有一小部分可能具有生物学可行性。在此,作者提出一种方法来生成生物学自然状态的肽。作者从一组真实的、相互作用的肽开始,这些肽出现在RCSB PDB的共晶体中(这些肽取自作者的训练集)。接下来,作者使用ESM-2-650M嵌入这些肽的序列。ESM-2的潜在空间嵌入自然状态的蛋白质序列,其中潜在空间中的相似位置对应于生物学相似性。因此,作者预计,如果在自然发生肽周围的潜在空间区域进行采样,将会恢复与自然界中发现的相似的肽序列。
为此,作者对源肽的每个残基的嵌入添加噪声。噪声从标准高斯分布中采样,并乘以缩放因子k创建扰动,然后将其添加到各自残基的嵌入中。通过分析生成的肽与其源肽之间的汉明距离的依赖性,作者选择了范围在5到22之间的k值,以保持自然状态的肽序列(图2A)。
图 2
通过改变噪声量和采样的真实肽数量,作者生成了任意大小的生物学可行的从头设计肽集合。最后,作者使用ESM-2-650M的最终层将扰动的嵌入转换为蛋白质序列,获取新的肽序列用于CLIP筛选,从而完成端到端的PepPrCLIP流程(图1A)。PepPrCLIP的具体算法可见附录图S2中的伪代码。
PepPrCLIP生成的肽抑制UltraID的催化活性
图 3
近邻依赖性生物素化鉴定(biotinylation identification,BioID)蛋白质组学是研究蛋白质-蛋白质相互作用和细胞内组织的强大且流行的方法。它依赖于生物素蛋白连接酶的酶活性,使靶蛋白附近的蛋白质生物素化。UltraID是一种构象稳定的酶(pLDDT = 96.2),由原始大肠杆菌BirA生物素蛋白连接酶进化而来(图3A),是目前用于BioID的最小的高效酶。其高酶促动力学和低背景活性使其在多种蛋白质组发现应用中极具前景。
在此,作者展示了使用抑制性肽(IPs)开发的UltraID"笼式"版本,其中酶被保持在非活性状态。作者推测,通过将UltraID与能够结合到催化核心并抑制其活性的IP链接,可能实现对UltraID的笼式抑制(图3B)。值得注意的是,UltraID使用三磷酸腺苷和生物素作为其生物素化功能的底物。因此,IP抑制的成功可能取决于IP与三磷酸腺苷/生物素在活性位点的竞争性结合,或由于诱导的构象变化使结合口袋无法接近。
由于UltraID是一种高度结构化的新型蛋白,不存在于两种模型的训练集中,作者评估了PepPrCLIP和RFDiffusion生成靶向UltraID催化口袋的IP(抑制性肽)序列的能力,该催化口袋基于AlphaFold2结构模型和已知的BirA结构预测(图3A)。随后,作者在细胞中对它们的抑制效率进行了实验验证。仅提供UltraID的靶序列并通过AlphaFold-Multimer确认其催化口袋靶向,作者使用PepPrCLIP生成了20个候选IP(IP_PpC_1至IP_PpC_20)。将AlphaFold2预测的UltraID结构作为输入,并将催化口袋指定为结合热点,作者从RFDiffusion生成了19个IP(IP_RFD_1至IP_RFD_19)进行比较。作者生成了表达这些IP的质粒,通过几个柔性连接子和血凝素抗体(HA)表位与UltraID DNA编码序列融合。这些质粒随后被转染到人胚胎肾(HEK)293T细胞中,这些细胞在固定和荧光染色前用50μM生物素处理30分钟。为评估抑制效率,作者评估了生物素化水平(链霉亲和素荧光水平)与转染效率(HA荧光水平)之间的比率。结果显示,在19个RFDiffusion生成的IP中,17个导致了UltraID抑制,其中3个(IP_RFD_2、IP_RFD_4和IP_RFD_17)抑制UltraID的酶活性超过75%,突显了其在结构化靶点上的强大结合剂生成能力(图3C)。在20个PepPrCLIP生成的IP中,19个显示成功的UltraID抑制,其中4个(IP_PpC_2、IP_PpC_8、IP_PpC_18和IP_PpC_19)表现出超过75%的抑制效率(图3C)。
为了进一步评估PepPrCLIP生成的抑制肽与RFDiffusion生成的抑制肽的总体性能比较,作者对这两组肽进行了非配对Welch's t检验。值得注意的是,PepPrCLIP生成的抑制肽平均表现出比RFDiffusion生成的抑制肽更高水平的UltraID抑制作用(P = 0.0364;图3C)。即使在两种模型生成的顶级候选物中,PepPrCLIP生成的抑制肽仍然显著优于RFDiffusion生成的抑制肽(P = 0.0055;图3D),这强调了PepPrCLIP在设计不仅能结合而且能抑制靶蛋白活性的肽方面的强大潜力。这些结果突显了PepPrCLIP在生成能够通过预测结合催化位点来调节酶功能的肽方面的潜在实用性。
作者还观察到,与PepPrCLIP生成的抑制肽相比,RFDiffusion生成的抑制肽往往具有更重复的序列。相比之下,PepPrCLIP优先考虑多样化的序列,这些序列促进了与UltraID的强抑制性结合相互作用,这在靶向不同蛋白构象时可能进一步带来优势。结合作者的观察,即PepPrCLIP在结构化靶点(如UltraID)上产生的结合物与RFDiffusion相当或甚至表现更佳,这一区别促使作者探索更多具有潜在治疗意义的构象多样性靶点。
编译|黄海涛
审稿|王梓旭
参考资料
Bhat, S., Palepu, K., Hong, L., Mao, J., Ye, T., Iyer, R., ... & Chatterjee, P. (2025). De novo design of peptide binders to conformationally diverse targets with contrastive language modeling. Science Advances, 11(4), eadr8638.