近日,计算免疫著名学者Victor Greiff ,在Nature子刊发了一篇关于抗体可开发综述研究,题为“Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability“的文章。
结论
1.提供了一份可执行可计算的可开发性特征列表,同时提供了基于结构和序列的特征相关性、敏感度,可预测性结论,这些特征与结论方便应用在所有其它可开发性任务中。
2.冗余度(特征多重共线性):相比基于结构的特征,基于序列的可开发性相关特征冗余度更高[需做好特征选择],即基于序列的特征之间存在多重共线性,说明考虑结构对治疗性抗体设计的重要性。
3.敏感性:基于序列的可开发性特征的敏感性可通过单氨基酸取代分析来量化,这样当抗体设计以多目标优化进行时,引入序列的微小变化可能足以提高某个可开发性特征的值。
4.可预测性:提供其余可开发性特征的情况下,能不能对该特征提供更好的预测见解,加速抗体可开发性筛选,发现基于序列的特征比基于结构的特征更容易提供预测的见解。
5.抗体序列相似性并不意味着抗体可开发性相似性。
6.已提交专利的人源化小鼠和治疗性单克隆抗体属于天然可开发性特征空间的一个子集,并聚集在特定区域的趋势,而不是均匀分散在整个空间中。
1. 天然抗体可开发性景观的可塑性
计算了200多万个天然和人造单链抗体序列,每个抗体计算40个序列和46个基于结构的特征(DP)。
图1:天然和人类工程抗体中可开发性参数的冗余性、敏感性和可预测性
概念:
可开发性:定义为可开发性参数的内在物理化学参数的组合,其与抗体及其制剂的生物物理方面有关,包括聚集性、溶解性和稳定性。
DP冗余度:DP相互关联的程度,即可开发性相关特征的多重共线性,特征与特征的相关系数;
灵敏度:分析单个氨基酸取代的突变体的DP值分布来量化DP敏感性;可预测性:提供其余可开发性特征的情况下,能不能对该特征提供更好的预测见解。
方法:为了分析天然抗体可开发性的制约因素,将当前人造抗体数据集联系起来,组装了一个超过2M个天然抗体序列(重链和轻链同种型,人类和鼠源)的数据集,每个抗体计算了86个特征(可开发性参数):40个基于序列,46个基于结构的DP。
为了减少冗余,确定了DP相关网络的最小权重支配集(MWDS)。为了量化灵敏度,分析了单氨基酸取代突变体,然后表征了序列变异对DP分布的影响。为了计算可预测性并评估DP的相互依赖性,使用可开发性概况(DPL)和蛋白语言模型(PLM)嵌入表征训练了多元线性回归(MLR)。这些嵌入表征通过主成分分析PCA将天然抗体与人造抗体关联起来。用MD来分析抗体DP值的分布定义刚性模型如何适应这些分布。
结果:冗余:对于天然数据集的所有同种型,结构特征DP之间的相关性[多重共线性]低于基于序列的DP,并且更高的成对抗体序列相似性并不总是与更高的成对抗体可开发性相似性相关。
可预测性:使用蛋白质语言模型(PLM)和多元线性回归嵌入时,基于结构的特征DP比基于序列的特征DP更难预测。人工设计的抗体数据集(治疗、专利和Kymouse)位于天然可开发性空间范围内。
敏感性:提出了序列单突变可以量化抗体可开发性特征DP的敏感性方法。
2. 可开发性参数[特征]
2.1 基于序列的40个特征
2.2 基于结构的48个特征
3. 基于序列的可开发性相关特征与基于结构的相关特征相比表现出更高的成对相关性[冗余度]
图2:与基于结构的参数相比,基于序列的可开发性参数显示出更高的冗余
b.基于成对Pearson相关性对170473种IgG人抗体的40个序列和46个结构可开发性参数进行层次聚类.热图内的每个单元格都反映了一对DP的Pearson相关性值。可开发性参数用颜色标注了其相应的类别(序列或结构)、物理化学性质和黑框突出显示包含三个以上DP并显示成对Pearson相关系数>0.6的相关聚类。
4. 基于序列的可开发性参数的敏感性可以通过单氨基酸取代分析来量化
为了抗体设计将以多目标的方式进行360论文。在某些情况下,引入微小的变化可能足以提高某个可开发性参数的值,也可能会破坏另一个参数。
通过两个代理指标来估计DP敏感性。通过excess峰度定义平均敏感性,其次,潜在敏性定义为抗体及其所有可能的单个氨基酸取代变体的DP分布范围。
图3:通过分析野生型抗体的突变变体,可以量化可开发性参数的敏感性
b.选定的基于序列的DP的平均灵敏度和潜在灵敏度。
c.按发生突变的抗体区域分组的(B)中的DP的平均灵敏度和潜在灵敏度。在(b)和(c)中,x轴上的数值代表相应灵敏度指标的中位数.
5. 可开发性特征相似性不一定与序列相似性相关
图5:可开发性剖面相似性不一定与序列相似性有关
6. 基于序列的可开发性参数比基于结构的参数更可预测
图5:基于序列的可开发性参数比基于结构的参数更可预测
对于ML任务1,比较了两种不同嵌入的预测准确性;单DP不完全可开发性概况(DPL,即用其它可开发性特征预测缺失的特征DP)和PLM向量(ESM-1v表征)。使用这些嵌入(分别)训练多元线性回归(MLR)模型来预测测试集中缺失的DP值。
在饱和点,两种嵌入对序列DP的预测准确度都高于结构DP。
对于序列DP,两种嵌入之间的预测准确度差异更为明显,基于PLM的嵌入的平均预测准确度为0.92,而基于DPL的嵌入的平均预测准确度为0.34(图b)。
因此,基于PLM的序列级别嵌入所实现的高可预测性凸显了其基于氨基酸序列捕获抗体生物物理特性的能力。
7. 已提交专利的人源化小鼠几何治疗性单克隆抗体代表了自然可开发性图谱的一个子集
图6:b前三个面板:基于主成分分析(PCA,见方法),将人类比对的人类工程VH抗体(Kymouse;209452,PAD;99213和治疗性单克隆抗体;329)定位在天然人类VH数据集(854418抗体)的可开发性分布空间中。底部两个面板:人类比对的人类工程VL抗体(PAD;78921和治疗性单克隆抗体;320)在天然人类VL数据集(385633抗体)的可开发空间中的定位。六边形箱(显示在背层)表示天然抗体的计数(刻度显示在面板的右上角),人类工程抗体表示为数据点。
分析用的数据集是最大的物种特异性子集(天然VH抗体约为0.8 M,天然VL抗体约为0.4M ,PAD:VH抗体为99213,PAD VL抗体为78921,VH mAb为329,VL mAb为320)。
发现人造抗体(VH和VL)主要包含在天然抗体的可开发性和PLM景观中(图b),这表明 -对于分析中包含的DP-人造抗体的可开发性和序列景观仅占据自然空间的子空间(就研究的两个主要PCA轴而言)
8. 讨论
在文献[2]中,摩尔消光系数和可变区序列的消光系数(AbChain_molextcoef、AbChain_percentextcoef)和半胱氨酸桥(AbChain_cysbridges_molextcoef、AbChain_cysbridges_percenextcoef)都列为重要的可开发性预测因子,但作者发现其中一个系数足以取代另一个。
文献[3]中,表明基于结构的等电点(pl)可以作为有限大小的治疗性抗体数据集(77种临床阶段抗体)上重要可开发性参数的重要性,作者发现基于序列的pl(AbChain_pl)可以取代基于结构的pl。
在每种链类型中,发现鼠源抗体和人抗体占据可区分的可开发性空间,突出了转基因小鼠对抗体筛选的重要性以及抗体人源化工作的挑战。
酸性pH下的抗体可变区电荷已被证明是igG mAb药代动力学和产品配方的关键因素。
参考资料: 数据:
https://github.com/csi-greifflab/developability_profiling
代码:
https://github.com/csi-greifflab/developability_profiling
[1] Bashour, H., Smorodina, E., Pariset, M. et al. Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability. Commun Biol 7, 922 (2024)
[2] Widatalla, T., Rollins, Z., Chen, M.-T., Waight, A. & Cheng, A. C. AbPROP: Language and Graph Deep Learning for Antibody Property Prediction.
[3] Ahmed, L., Gupta, P. & Martin, K. P. Intrinsic physicochemical profile of marketed antibody-based biotherapeutics. Proc. Natl Acad. Sci. USA 118, e2020577118 (2021)
--------- End ---------