前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集--抗体研发过程中的计算以及AI手段

榕树集--抗体研发过程中的计算以及AI手段

作者头像
DrugSci
发布2024-03-04 11:12:22
1770
发布2024-03-04 11:12:22
举报
文章被收录于专栏:FindKeyFindKey

前言

本周介绍一篇发表在CellPress上的关于抗体研发的综述。

亮点

  • 基于计算/人工智能(AI)的抗体研发方向取得了显著进展
  • 数据库中存储着海量的抗体序列,但结构数据有限;生物物理性质数据也是可用的。
  • 已经有了许多预测抗体不同生物物理和其他属性的工具。
  • 深度学习方法在不断的提高抗体结构预测的性能,包括CDRs,而de novo设计仍然是一个具有挑战性的问题。
  • 蛋白质语言模型在这方面显示出非常有吸引力的前景。

简介

治疗性抗体目前是生物疗法中最大的类别,因为它们的靶点特异性较好和结合亲和力较高。传统的抗体开发过程是基于主要的经验性方法,虽然成熟稳健,但繁琐且有显著的缺陷。最近,计算和人工智能(AI)技术的进步开始克服这些限制,被越来越多地整合到抗体开发的流程中。本文提供了与抗体开发相关的AI方法的概述,包括数据库、抗体属性和结构的计算预测模型,以及机器学习(ML)模型为重点的计算抗体设计方法。特别是,重点介绍了对结合至关重要的抗体结构组分,如互补决定区(CDR)环的设计。

传统抗体工程方法的限制

传统的抗体工程方法虽然可以通过免疫或定向进化等方法获得binder,但仍然存在着一些较大的局限性。其中一个是很难针对抗原上的特定表位进行靶向。因为大多数筛选活动只能获得与给定表位结合的抗体,达不到所需要的生物活性。另一个缺陷是只有少数抗体具有成为治疗药物可能性,而大多数筛选活动中获得的初始阳性结果,会在后续开发中面临很多困难。此外,一旦获得候选的抗体 binder,抗体/抗原复合物的结构解析是非常有用的,但是需要通过X射线晶体学或核磁共振手段,通常耗时且通量较低。

抗体序列和结构数据库

在抗体研发过程中,抗原的靶向以及功能,包括:抗原亲和力,靶标特异性,表位分析展示出的生物学功效以及有待开发的其余属性(Fig 1)。以上的能力和性质均由抗体的序列和结构决定。因此,关于抗体序列,结构和相关性质的信息对设计新型抗体是非常重要的。已经有了很多的数据库(Table 1),并且这些数据库对深度学习模型的训练也非常重要。

Fig 1. 抗体工程中优化功效和功能

Name

Description

OAS

A sequence database containing 1.5 billion paired Fv and unpaired sequences from 80 studies

PIRD

A sequence database containing annotated T cell receptor and B cell receptor repertoire sequencing data

AbDiver

A bioinformation tool that employs the B cell receptor sequencing data and compared query sequences to natural repertories

RAPID

A bioinformation tool that allows users to process and analyze human HC repertoire sequencing data and a large antibody database

AbDb

A structure database containing Fv region structures extracted from the RCSB PDB and SACS dataset

SAbDab

A bioinformation resource containing all the publicly available antibody structures

abYsis

A bioinformation tool including an integrated database of antibody sequence and structure data

Thera-SAbDab

A structure database including all antibody- and nanobody-related therapeutics recognized by the World Health Organization (WHO)

SKEMPI

A structural database containing more than 3000 binding free energy changes upon mutation from published literature

AB-Bind

A database including a diverse set of antibody binding data with experimentally determined binding free energy

Cov-AbDab

A focused repository for antibodies targeting SARS-CoV-2, SARS-CoV-1, and MERS-CoV

sdAb-DB

A focused repository for single-domain antibodies and related classes of proteins

TAP

A comprehensive platform including tools for evaluating five properties of antibody

Camsol

A predictor of protein solubility and potential sites to be modified for improvement through sequence- and structure-based algorithm

SOLart

A predictor of protein solubility and aggregation through structure-based algorithm

A3D

A predictor of aggregation-prone regions through sequence- and structure-based algorithms

IEDB-AR

A comprehensive platform including tools for prediction and analysis of immune epitopes

Hu-mAb

A classifier that can distinguish between human and non-human antibody Fv sequences

BioPhi

A comprehensive platform for antibody design, humanization, and humanness evaluation

Table 1: 目前的对于抗体结构,序列,属性分析的一些数据库和工具

抗体序列数据库

在人类免疫系统中,抗体由B细胞产生,估计约有10^13个独特序列。抗体由两种类型的蛋白链组成,称为重链(heavy chain,HC)和轻链(light chain,LC)。下一代测序(NGS)方法获得抗体库序列的大量信息,有海量的标准化的测试数据以及公开可用的数据库。Observed antibody space (OAS)汇总了可变片段(Fv)序列,包含了来自68个不同研究的近20亿个序列。一些DL模型用OAS的数据进行了训练,用于区分和生成人源的抗体序列。此外,一些新型工具利用这些数据集进行了抗体序列分析。例如,AbDiver是一个利用公开的B细胞受体NGS数据集的工具,可以将设计的序列与天然序列进行比较。该工具有助于庞大的抗体突变空间下进行理性设计研发。此外,开发人员发现它可以为742种治疗性抗体找到合适的配置。

抗体结构数据库

抗体的Fv结构由CDRs、高度可变的序列和保守序列的框架组成。六个CDR loop,分别位于重链(VH)和轻链(VL)的可变结构域上,参与抗原的结合。因此,抗体的3D结构决定了它与抗原的相互作用方式。研究人员可以利用从抗体结构中获得的信息来增强结合亲和力,或者开发预测表位的方法。基于结构的方法仍然是抗体设计的最有前景的方向,因此结构数据库对于训练和基准测试至关重要。

PDB中的抗体结构已经被整理分类为各种数据集。抗体结构数据库(AbDb)中使用来自抗体晶体结构概要(SACS)数据集的信息对Fv区域的注释进行了更新。类似地,结构抗体数据库(SAbDab)中的结构也来自于PDB数据库,这是一个共有12,367个Fv区域结构的数据库(截止于2022年6月),以及abYsis。此外,治疗性结构抗体数据库(Thera-SAbDab)是一个治疗性抗体结构数据库,其中包含的数据有抗体和纳米抗体相关的结构。同时有一些额外的数据库总结了抗体性质和结构的信息,包括一些突变的动力学和能量信息,如SKEMPI。这些数据库都可以直接用于或者其余数据集结合使用,来训练或者优化模型。

抗体属性的预测

除了结合特异性和亲和力之外,可发展性(developability)对于开发新型抗体至关重要。可发展性属性影响了抗体候选能否进入临床应用阶段并且保持适当的疗效。可发展性的几个主要属性包括:固有免疫原性、聚集/不溶性、粘度和半衰期。为了减少工业应用中的可发展性的相关问题,需要在早期开发阶段就开始考虑抗体的性质。最近,基于经典统计学或机器学习的计算工具或方法已经被开发出来,可以用于预测抗体的可发展性。

总的来说,抗体的可发展性主要可以通过氨基酸序列的物理化学性质来预测,例如疏水性、静电荷以及拓扑结构中的相互作用。例如,治疗性抗体分析(TAP)模型给出了与可发展性差相关的五个指标的分布:CDR总长度、表面疏水性程度、CDR中的正电荷和负电荷以及重链和轻链表面电荷的不对称性。TAP还为每个指标提供了指导性的截止值,这些截止值被用于过滤具有较差可发展性的抗体。此外,还有一些机器学习模型可以使用抗体序列或结构来预测可发展性。例如,Chen等人建立了一个机器学习pipline,使用来自SAbDab数据库的2400个抗体序列数据集来预测抗体的可发展性。

聚集

亲水性与聚集倾向、溶解度、粘度、自身相互作用和蛋白稳定性相关。抗体药物的聚集可能导致沉淀,缩短存储期,以及体内聚集可能增加药物的免疫原性。为了预测蛋白质的溶解度和聚集倾向,已开发了几种预测工具,包括Camsol和SOLart等。此外,也有一些机器学习模型可以使用抗体序列或结构来预测聚集倾向,如AGGRESCAN 3D(A3D)。一些机器学习模型可以帮助指导抗体候选药物的工程,避免“可发展性陷阱”。

免疫原性

抗体药物常来源于非人类生物,因此可能会被免疫系统识别为外源抗原,从而引发免疫原性反应。免疫原性会降低治疗效果,并通过引发不良药物反应影响安全性。为了评估抗体药物的临床安全性和有效性,开发了预测免疫原性的方法。这些方法包括传统技术和基于人工智能的计算工具,可以识别抗体中的 B 和 T 细胞表位。一些研究团队利用机器学习模型对抗体序列进行分类,以预测其人类性和免疫原性风险。此外,还开发了一些工具来人类化抗体序列,以减少其免疫原性风险。

药代动力学:

药代动力学(PK)清除确定了抗体的半衰期,因此也确定了抗体药物在给药后在体内停留的时间长度。等电点(pI)、粘度、免疫原性、非特异性、聚集和稳定性是与临床 PK 清除率相关的因素。为了通过对这些因素进行全面评估来预测清除率,Grinshpun 等人收集了已获批准或处于二期和三期临床试验中的 64 种单克隆抗体(mAbs)及其已发表的PK数据,并训练了一个随机森林分类器来区分具有不同清除水平的抗体。他们发现等电点是区分快速和缓慢清除抗体的最关键特征。此外,Labute 等人报道了基于结构的电荷计算来预测 PK 清除率。

抗体的计算设计

经典的抗体设计技术

经典抗体设计技术依赖于传统的采样和评分方法,其中两个典型的例子是RosettaAntibodyDesign(RAbD)和OptMAVEn。RAbD通过外环和内环设计算法循环来进行抗体设计,而OptMAVEn则采用三步工作流程,利用抗原-抗体复合物数据库的结构信息,选择潜在结合位置;将抗体分为6个组成部分,每个部分都有自己的结构参考库;随后根据每个部件的抗原结合能量,通过线性规划选择出最佳的组合。这些方法通常需要生成大量的候选物库(million)和大量的计算资源,采用了先前开发的高并行的筛选策略,并且受限于经典的评分函数的限制。

然而,这些经典技术存在一些限制,如依赖已知结构的数据库、计算成本高、评分函数的限制等。随着深度学习技术的发展,越来越多的研究开始转向应用机器学习模型进行抗体设计,以克服这些限制。

基于ML的抗体结构建模

抗体结构信息对于理解抗体的特性,如特异性和亲和力,至关重要。六个CDR(H1、H2、L1、L2和L3)中的五个,结构多样性有限,loop通常遵循规范的构象;这些环具有更多的结构约束,更容易预测。而 CDR-H3的构象非常多样,即便在序列相似性高的情况下。因此CDR-H3建模是一个约束较少、更困难的问题。

许多实验性抗体设计技术产生了与结构无关的序列信息。在进行大规模筛选时,独立确定所有抗体 loop结构及其与抗原的界面是不切实际的。传统上,抗体结构的预测使用基于物理的建模(如分子动力学模拟),同源建模或组合方法(如 MODELLER)。

相比之下,深度学习模型也被开发用于抗体结构建模。例如,ABodyBuilder是一个自动化的抗体同源建模流程,而ABlooper使用图神经网络预测CDR环的位置。此外,DeepAb从不变特征预测结构,并在预测精度方面取得了成功。然而,由于DeepAb依赖于Rosetta,其预测速度较慢,因此最近引入了更快的模型IgFold。另外,AlphaFold2被证明在从序列预测蛋白质结构方面具有革命性的作用,但由于其依赖同源序列的MSA,因此对于CDR-H3的建模不太适用。深度学习在抗体筛选方面也被证明是有用的,例如DLAB使用神经网络生成结合分数。总体而言,虽然这些方法取得了显著进展,但仍需要进一步研究以解决抗体/抗原复合物结构的可靠建模问题,特别是针对CDR-H3的建模。

Table 2 抗体结构模拟方法

基于结构的深度学习模型

最近的研究着重于利用深度学习(DL)技术在抗体设计领域的应用,特别是针对CDR-H3环的设计。这些努力主要分为两类:一类是通过生成3D坐标来设计CDR-H3的backbone,例如IG-VAE模型;另一类是利用学习蛋白质结构图嵌入的模型,预测特定突变引入后的ddG变化。然而,这些基于结构的模型仍然存在局限性,例如依赖外部工具进行序列设计,以及不能针对特定表位进行设计。

Table 3 抗体设计深度学习模型

基于序列的深度学习模型

基于序列的深度学习(DL)模型可以分为两类:一类是试图仅从抗体序列中学习整体特征的DL模型;另一类是利用抗原特异性数据的序列方法。第一类模型通过学习抗体序列的相互依赖关系来设计,其中自回归或生成模型的出现使得可以生成类似于抗体的序列。Shin等人利用因果扩张卷积应用于自回归模型中,通过学习序列中的长程关系来生成纳米抗体库。随后,由于Transformer模型(如BERT)的发展,NLP取得了巨大进步,并将这些模型应用到蛋白质序列中,从而产生了ProtBERT和ESM-1b等模型。这些模型在捕获蛋白质序列的许多特性方面都取得了巨大成功。另一方面,另一种仅使用序列的方法则利用抗原特异性数据,例如Mason等人提出的方法可以训练卷积神经网络。未来的模型可能会结合语言模型的特征,并在实验数据上进行训练,以获得针对抗原结合进行优化的实际抗体。然而,目前纯粹基于序列的模型要么与抗原无关,要么需要外部实验数据,并且在生成过程中受益于结构信息的整合。

结构和序列信息是机器学习的抗体设计的未来

除了前述的经典工作之外,越来越多基于人工智能的方法开始被开发。例如,Jin等人开发了一个模型,以自回归方式生成CDR-H3环的序列和结构。下一个氨基酸的预测取决于抗体框架的粗粒化表示以及生成的loop中当前氨基酸的结构。他妈的结果展示了可能的针对SARS-CoV-1和SARS-CoV-2的抗体研发。尽管令人兴奋,但该模型并未对特定抗原表位进行调节,为进一步改进模型留下了空间。Kang等人采用了一种更简单的方法,其中抗体和抗原氨基酸被表示为图中的节点,通过界面残基节点之间的边捕获界面结构。尽管在某种程度上取得了成功,但该模型显示出对训练数据的显著的过拟合。未来的CDR-H3环的设计将在能够完全生成序列和结构的模型上,同时适当地对目标表位进行调节。

将AI设计方法纳入其中可能会改善抗体开发

观察DL中一般蛋白质设计的发展,将其中成功的技术纳入到抗体设计的任务也很重要。最近,在将幻觉(hallucination)技术应用于一般蛋白质设计方面取得了成功。在这种方法中,随机选择蛋白质序列,然后使用现有的ML模型将其“折叠”成3D结构(通过骨架α-碳距离图预测),提供一个起点,然后通过蒙特卡洛过程引入突变。此外,扩散概率模型已经被成功应用于蛋白质骨架设计的生成。最近,基于打分的生成模型RFdiffusion和Chroma能够为新型蛋白质生成全原子坐标,其中Chroma能够创建含有数千个氨基酸的蛋白质。很明显,这些方法适用于CDR区域的设计,未来的工作有赖于它们。

总结以及未来展望

该文总结了当前计算方法在治疗性抗体开发中的应用,包括结构、表位预测以及解决开发问题。这些方法不仅可以提高开发性能,还可以降低成本、减少劳动力。作者提到了AlphaFold2等工具在缩短时间方面的重要性。以新冠疫情为例,许多药物发现研究是通过计算方法进行的。作者强调了结构和序列设计中的DL方法的重要性,并展望了未来的发展方向,包括引入密码子优化和将各种进展整合成端到端的可微分流程。这些进展有望加速抗体开发,特别是在结合预测和结构搜索方面。

Figure 2 抗体设计的最新计算手段

参考

1.https://www.cell.com/trends/pharmacological-sciences/fulltext/S0165-6147(22)00279-6

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 亮点
  • 简介
  • 传统抗体工程方法的限制
  • 抗体序列和结构数据库
    • 抗体序列数据库
      • 抗体结构数据库
      • 抗体属性的预测
      • 抗体的计算设计
        • 经典的抗体设计技术
          • 基于ML的抗体结构建模
            • 基于结构的深度学习模型
              • 基于序列的深度学习模型
                • 结构和序列信息是机器学习的抗体设计的未来
                  • 将AI设计方法纳入其中可能会改善抗体开发
                  • 总结以及未来展望
                  • 参考
                  相关产品与服务
                  数据库
                  云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档