今天介绍一些测评类文章,主要看看AF2在抗体预测方面的表现。先来简要回顾一下Alphafold的历程。在2018年的CASP(Critical Assessment of protein Structure Prediction)竞赛中,DeepMind所属的AlphaFold取得了显著的成功,初步展示了AF对蛋白质结构预测的潜力,拿到了60分左右(百分制)。2020年,DeepMind发布了AlphaFold的升级版本——AlphaFold 2。这个版本在同年的CASP14竞赛中取得了突破性的成绩,准确率大幅提升,拿到了90分。2021年,AF2-multimer版本释放,AF2可以用于预测蛋白--蛋白复合物体系。而2023年说释放的AF-latest信息来看,AF已经可以预测蛋白质-小分子-核酸等等组成的复合物系统,但是遗憾的是这一版目前仍未被公开。
先来看一下AF-multimer[3]自己的宣传效果。
作者通过使用一组17个异源二聚体蛋白(没有模版)的基准数据集,13个蛋白的预测结果达到了中等准确性(DockQ≥0.49),7个蛋白的预测结果达到了高准确性(DockQ≥0.8)。此外,作者还使用AF-Multimer对4,446个最近的蛋白质复合物进行了预测。而结果显示,对于heteromeric interfaces,成功率为70%(DockQ ≥ 0.23),其中26%的预测结果达到了高准确度(DockQ ≥ 0.8)。对于homomeric interfaces,成功率为72%,其中36%的预测结果达到了高准确度。
先解释一下DockQ[1]:
DockQ基于已有的对接模型质量评估指标:Fnat、LRMS和iRMS,这些指标已经在CAPRI和其他测试中使用。DockQ这些指标结合在一起,使用Fnat的平均值以及经过缩放的两个RMS值来表示。非线性缩放RMS值的好处在于使得DockQ分数的范围在0到1之间,而且不同的RMS值则具有质量依赖性,即质量越高,分数越好。这有助于更公平地评估不同对接模型的性能,无论其具体的RMS值是多少。
DockQ 将蛋白质-蛋白质复合物结构质量分为了四个等级[9]:
依据AF-mulitimer的描述,其预测蛋白复合物的成功率至少在50%以上,即预测结果达到Medium quality的占比。
抗体(Immunoglobulin,Ig)是一种由免疫系统产生的蛋白质分子,其主要作用是识别、结合并中和入侵人体的外来病原体(如病菌、病毒等)或异常细胞。抗体的结构是非常复杂的,它通常由四个蛋白质亚单位组成,这些亚单位称为轻链(light chain)和重链(heavy chain),并且分为不同的类别,如IgG、IgM、IgA、IgD和IgE等。
抗体的结构主要包括以下部分:
随后,有人对AF2进行了具体的测量,在抗原抗体复合物预测领域,根据Brian G. Pierce[6]的文章来看。他构建了一个400多个抗原--抗体复合物的数据集,并在这些数据集上进行了测试,AF2.2的版本成功率为20%,而AF2.3的版本成功率为30%左右。同时其比较了目前比较流行的fold-and-dock策略,即使用AF预测单独的抗原/抗体结构,随后交由ZDOCK进行对接。ZDOCK预测结果Top 1的得分大概达到Medium or higher accuracy只有1%,可谓不忍直视。同时作者也分析了一些影响因素:MSA,Structure template,抗体类型(nanobody),抗原糖基化,复合物整体尺寸等等。简而言之,MSA和Structure template作为AF2的输入项会显著影响结果。复合物尺寸越小,预测效果越好,也就是nanobody效果会好一些。而抗原糖基化也会显著影响AF2的预测效果。对于一些具有能量偏好的界面,AF2也会表现的好一些。
随后出现了一些策略,用于优化AF2在抗原抗体上的表现。Alexandre M.J.J. Bonvin[5] 构建了一套基于HADDOCK,ML tools以及AF2的流程,用于提高预测成功率,并在71个复合物结构上的benchamrk上进行了测试。其所构建的protocol如table 1所示,而其DDP的流程如下:
而在其中ABBE流程表现最好,即使用ABodyBuilder2和AlphaFold2生成的抗原结构模型的集合作为输入,随后遵循DDP流程。但是由于判断标准不同,仅能说明这个流程要比AF2的效果好,但是好多少,存疑。同时可以明显看到的是,抗原/抗体结构越接近binding时候的构象,表现越好。
AF2在抗原抗体复合物预测结果上效果并不是很好,而传统的对接手段,在这方面的表现只能说聊胜于无。目前兴起的Fold-and-Dock
策略,在单一抗体结构和单一抗原结构对接时,并不会起到很好的作用,而ensemble docking可能会表现好一些。但是好多少,尚不明确。同时MSA,Structure template作为输入,肯定会影响输出结果,如何让其影响偏好抗原抗体结构也是个问题。