作者 | 应俊杰 审稿 | 王天舒 指导 | 闵小平(厦门大学)
今天给大家介绍的是来自北京人工智能研究院、北京信息科学与技术国国家研究中心等机构发表在arxiv上的预印文章《Conditional Antibody Design as 3D Equivariant Graph Translation》。作者提出了一种多通道等变注意网络 (MEAN),这是一种能够共同设计 CDR 的 1D 序列和 3D 结构的端到端模型。具体而言,MEAN 通过导入包括目标抗原和抗体轻链在内的额外成分,将抗体设计表述为条件图翻译问题。然后, MEAN 采用E(3)-equivariant 消息传递以及注意机制来更好地捕捉不同组件之间的几何相关性。最后,它通过多轮渐进式全镜头方案输出 1D 序列和 3D 结构。
作者的方法在序列和结构建模、抗原结合抗体设计和结合亲和力优化方面超越了最先进的模型。在抗原结合 CDR 设计中比基线提高了约为22%,在亲和力方面比基线高34%。
1
研究背景
传统方法只专注于对 1D CDR 序列进行建模,而最近的工作逐渐转向通过图神经网络 (GNN) 共同设计 1D 序列和 3D 结构。尽管取得了丰硕的进展,但现有方法在模拟抗体和抗原之间的空间相互作用方面仍然薄弱。一方面,上下文信息没有被充分考虑。工作仅描述了 CDR 与同一抗体链的骨架上下文之间的关系,没有涉及靶抗原和其他抗体链,这可能缺乏完整的线索来反映抗体设计的某些重要特性,例如:结合亲和力。另一方面,这些模型仍然无法捕获输入结构的整个 3D 几何形状。
3D 生物学的一个重要特性是每个结构(分子、蛋白质等)都应该独立于观察视图,即 E(3)-equivariance。目前有的工作是将 3D 坐标作为某些不变特征进行预处理,然后再将它们提供给模型。然而,这种预处理将丢失特征和隐藏空间中的方向信息,使其在表征抗体或抗原中不同残基之间的空间接近性方面不太有效。此外,当前的部分生成模型会一一预测氨基酸,这种自回归方式在推理过程中存在效率低和累积错误的问题。
针对上述问题,作者将抗体设计问题表述为 E(3)-等变图翻译,构建了一个新颖的模型。
2
方法
预备知识、符号和任务制定
对于具有两组对称的链的Y 形抗体(如图 1),每组由一条重链和一条轻链组成。在每条链中,有一些恒定结构域和一个具有三个互补决定区 (CDR) 的可变结构域 (VH /VL)。抗原结合位点出现在可变域上,其中相互作用区域主要是 CDR,尤其是 CDR-H3。除 CDR 之外的可变结构域的其余部分在结构上非常保守,通常称为框架区。
图 1:(A) 残基的结构 (B) 对称的 Y 形抗体的结构,关注重链可变域上的三个通用 CDR。(C) 抗原抗体复合物的示意图,具有全局节点、内部上下文边 Ein 和外部交互边 Eex。
将每个抗体-抗原复合物表示为三个空间聚合成分的图,表示为 G = (V := {VH , VL, VA}, E := {Ein, Eex})。这里,组分VH、VL、VA分别对应于重链、轻链和抗原的节点(即残基)。Ein 和 Eex 分别包含每个组件内的内部边缘和跨组件的外部边缘。
节点:V 中的每个节点,即 vi = (hi, Zi) 根据其氨基酸类型 ai 和一组坐标 表示为可训练的特征嵌入向量
边:对于内部边,如果以 Cα 表示的空间距离低于截止距离 c1,则 Ein 定义为连接同一组件内的每对节点的边。通过为那些邻接残差设置 eij = 1 和为其他邻接残差设置 eij = 0 来分配不同的边类型,以合并一维位置。
全局节点:CDR 环的形状与框架区的构象密切相关。因此,为了让生成的 CDR 了解它们所在链的整个上下文,作者通过把全局节点连接到组件中的所有其他节点,将全局节点插入到每个组件中。
MEAN:多通道等变注意网络
作者开发的多通道等变注意网络 MEAN(如图 2) 用来表征输入抗体-抗原复合物的几何形状和拓扑结构。MEAN 的每一层在两个模块之间交替:内部上下文编码器和外部注意力编码器。第一个模块对每个组件内的结构进行编码,而第二个模块则侧重于对不同组件之间的外部交互进行建模。经过几层消息传递后,节点表示和坐标由输出模块转换为预测。所有模块都满足 E(3)-equivariant。
图 2:MEAN 概述和渐进式全镜头解码
渐进式全镜头解码
利用由于 MEAN 的丰富表达能力,在 T 次迭代中逐步生成 CDR(T 远小于 CDR 序列的长度),并且在每次迭代中,预测所有节点的氨基酸类型和 3D 坐标一次性放入 VC 中。作者将这种方案称为全镜头解码,以将其与以前的自回归方法区分开来。
3
实验结果
序列和结构建模
作者从从结构抗体数据库SAbDab中选择了 3,127 个复合物并删除其他缺少轻链或抗原的非法数据点。所有选定的配合物都在 IMGT 方案下重新编号。根据 CDR 的聚类将数据集分为训练集、验证集和测试集,以维护泛化测试。测量 1D 预测序列和基本事实之间的困惑度 (PPL),以及关于 3D 预测结构的均方根偏差 (RMSD),以进行定量评估。
表1:序列和机构生成对比
表1 表明了MEAN 在 1D 序列和 3D 结构建模方面明显优于其他方法,这验证了 MEAN 在对配合物的潜在分布进行建模方面的有效性。
CDR-H3抗原结合设计
作者对设计与给定抗原结合的 CDR-H3 进行了细粒度验证。为了便于评估,采用氨基酸回收率 AAR 和 TM-score作为评测标准。它们分别代表设计和目标 CDR-H3 之间的序列重叠率和结构相似性(范围从 0 到 1)。作者生成 10,000 个 CDR-H3,并选择 PPL 最低的前 100 个候选者来计算平均 AAR 和 TM 分数。用 Adolf-Bryfogle 等人精心挑选的 60 种不同的复合物对所有方法进行了基准测试。训练仍然在上一部分中使用的 SAbDab 数据集上进行。
表2:CDR-H3 抗原结合设计的三个指标对比
如表 2 所示,MEAN 在 AAR 和 TM 分数方面都大大优于所有基线。在 TM-score 上,MEAN 的值接近 0.99 以上,这意味着设计的结构与原来的结构几乎相同。
亲和力优化
表3:优化后的平均亲和力变化
作者将 SAbDab 中的经过预处理的所有复合体,以 9:1 的比例拆分为训练集和验证集,用于对模型进行预训练。从数据集 SKEMPI V2.0中选择了总共 53 种抗体进行亲和力优化。如表 3 所示,MEAN 模型在发现具有更好结合亲和力的抗体方面取得了明显进展。
4
分析
消融实验
表3:左:平均消融。右:与基于迭代细化解码相比,全镜头解码的平均 CDR 长度和训练加速。
如表 3(左)显示,移除全局节点或注意力机制会导致显着的性能损失。这是因为全局节点在组件内部和组件之间全局传输信息,而注意力模块集中在不同组件接口周围的本地信息。观察到仅使用重链会明显削弱性能,并且无法为亲和力优化任务得出可行的解决方案,这从经验上支持在 MEAN 中输入抗原和轻链的必要性。如表 3(右)所示,作者的方法根据 CDR 序列的长度加快了大约 2 到 5 倍。
注意力可视化
在外部注意力编码器中,作者应用注意力机制来评估不同组件中残差之间的权重。对于 CDR-H3 中的每个残基,首先确定抗原中对其结合能贡献最大的残基。然后根据MEAN产生的注意力权重计算识别出的残差的等级。接着通过用界面中的抗原残基总数对其进行归一化来获得相对等级。如果注意力权重有意义,那么最终的排名分布将偏向小数字。否则,它们均匀分布在 0 和 1 之间。实验结果表明,图 4(B)中到达了前一种情况,表明我们的注意力权重与 Rosetta 计算的结合能之间的密切相关性。图 4 (A) 还可视化了注意力权重的示例和相应的能量图,这表明它们的分布是相似的。
图 4:(A)左:CDR-H3 中的残基到抗原中的残基的注意力权重(PDB:4ydk) 右:Rosetta 计算的每对残基的相对能量贡献 (B) 贡献最大的残基对的相对等级的密度图
5
总结
作者团队将抗体设计工作构想成将抗体抗原复合物的整个背景作为输入,以通用 CDR 为输出。提出了多通道等变注意网络(MEAN)来识别和编码不同链内部和链间的局部信息和全局信息。还提出了渐进式全镜头解码策略,以实现更高效、更精确的生成。作者的模型在1D 序列和 3D 结构的学习、CDR-H3抗原结合设计和亲和力优化三个方面大幅度领先于基线。
参考资料
Kong, X., Huang, W. and Liu, Y., 2022. Conditional Antibody Design as 3D Equivariant Graph Translation. arXiv preprint arXiv:2208.06073.
https://arxiv.org/abs/2208.06073