
在人工智能驱动结构生物学发展的浪潮中,蛋白质复合物结构预测是一个关键且极具挑战性的交叉前沿研究问题。近日,我院张贵军教授团队与西湖大学工学院曾坚阳教授团队合作,在《Nature Communications》上发表了一项研究成果。该研究基于人工智能方法,从蛋白质序列中挖掘结构层面的互补性信息,构建了结构感知的复合物配对多序列比对信息,有效缓解了当前复合物结构建模中因“共进化信号缺失”所导致的预测精度不足问题。该方法在抗体-抗原复合物体系中的表现尤其突出。
蛋白质结构预测作为高通量获取蛋白质三维构象的重要手段,是生物信息学领域长期面临的重要科学难题。近年来,随着人工智能技术与结构生物学的深度融合,该领域取得了突破性进展。以AlphaFold2为代表的端到端结构预测方法,实现了接近实验解析精度的蛋白质单链结构预测。然而,蛋白质并不是“孤岛”,其生理功能的执行普遍依赖于由多个蛋白质链相互作用形成的复合物。现有深度学习方法大多依赖于MSA所提供的共进化信息,而复合物MSA的构建困难导致链间共进化信息缺失,限制了结合界面与空间关系建模的准确性。

DeepSCFold管线
为应对上述挑战,研究团队开发了复合物结构建模方法DeepSCFold。该方法基于深度学习技术,构建了两个互补的神经网络模型,在不依赖传统结构模板或共进化信息的条件下,直接从蛋白质序列中学习链间结构相似性与相互作用概率,从而构建更合理的链间配对多序列比对(MSA)。通过融合序列信息与多源生物学特征,DeepSCFold有效捕捉蛋白质链间的结构互补性,进而显著提升复合物结构建模精度。在CASP15官方复合物测试集上,DeepSCFold的平均TM-score相较于AlphaFold-Multimer提高了11.6%,较AlphaFold3也提升了10.3%。在抗体-抗原复合物结构预测任务中(基于SAbDab数据库),抗原-抗体界面预测成功率(DockQ > 0.23)相较于AlphaFold-Multimer提升24.7%,相较于AlphaFold3提升12.4%。

在CASP15测试集上的计算结果

在抗体-抗原复合物测试集上的计算结果
相关研究成果以“High-accuracy protein complex structure modeling based on sequence-derived structure complementarity”为题,于2025年11月19日在国际期刊《Nature Communications》上在线发表。浙江工业大学为第一完成单位。浙江工业大学信息工程学院张贵军教授为该论文通讯作者,西湖大学工学院曾坚阳教授为该论文共同通讯作者。论文第一作者为张贵军教授课题组博士研究生侯铭桦(2025届),西湖大学博士后夏瑜豪为共同第一作者。该研究受到了科技创新2030-“新一代人工智能”重大项目(2022ZD0115103)、国家自然科学基金(62173304,62203389)及浙江省“尖兵”科技计划(2025C01190)等项目的资助。

参考资料
Hou, M., Xia, Y., Wang, P. et al. High-accuracy protein complex structure modeling based on sequence-derived structure complementarity. Nat Commun 16, 10182 (2025).
https://doi.org/10.1038/s41467-025-65090-7