DRUGAI
随着计算结构预测技术的发展,目前可用的蛋白质复合物结构数量将大幅增加。要从这些数据中提取有价值的发现,必须对蛋白质复合物进行比对,但这在计算上极具挑战性。Foldseek-Multimer 通过高效聚类超位移向量,识别兼容的链对比对,从而计算复合物比对。该方法比当前金标准方法快 3–4 个数量级,同时比对质量相当,使其能够在 11 小时 内比对数十亿个复合物对。Foldseek-Multimer 是开源软件,可在 GitHub 获取,并可通过 Foldseek 搜索平台 及 BFMD 数据库使用。
引言
蛋白质复合物的相似性通常体现在其最佳结构比对上,而该比对决定了各个链的配对方式。比对和比较四级结构(quaternary structure)对于以下研究至关重要:
目前已有多种工具用于蛋白质结构比对,例如 Foldseek 和 US-align,但它们在计算复杂性和灵敏度方面存在不足。因此,研究人员开发了 Foldseek-Multimer,以提高蛋白质复合物比对的速度和准确性。
现有方法的局限性
单链蛋白比对工具
Foldseek 是一种快速的结构比对工具,能够基于 3Di(用于描述三级氨基酸相互作用的字母表)检测单链蛋白质的相似性。Foldseek 可用于在大型数据库(如 AlphaFold 数据库(AFDB))中搜索相似的单链结构。然而,由于比对蛋白质复合物需要正确确定各个链的配对方式,因此 Foldseek 不能直接用于复合物比对。
现有的复合物比对工具
US-align 是一种专用于蛋白质复合物比对的工具,采用 TM-score 最大化策略 进行比对。然而,由于可能的链对配对方式呈阶乘增长,US-align 采用 贪心搜索启发式算法 生成候选配对方案,并使用动态规划进行优化。虽然 US-align 比 MM-align 快 5 倍,但仍然计算开销较大,难以适应大规模数据库比对任务。
QSalign 旨在检测 同源复合物,通过 序列相似性预筛选 复合物对,从而减少计算量,仅保留序列身份高于 25% 的复合物对进行结构比对。然而,该方法牺牲了灵敏度,难以发现低序列相似性但具有 结构相似性 的复合物。
3D Zernike 形状描述符 方法则通过比较整体形状来比对复合物,避免了链对配对的问题。虽然该方法可以在 不到 1 秒 内查询数十万个结构,但它 无法识别局部匹配的复合物,在灵敏度上不及 US-align 和 QSalign。
Foldseek-Multimer 方法概述
为了解决上述挑战,研究人员开发了 Foldseek-Multimer,其核心算法主要基于以下三点:
Foldseek-Multimer 的关键优势包括:
结果
复合物比对性能评估
研究人员在 931 对已知结构相似的蛋白质复合物 上测试了 Foldseek-Multimer 与 US-align 的比对质量。结果显示:
计算时间比较
研究人员在 3DComplexV7 数据库上进行了全对全比对:
整理 | WJM
参考资料
Kim, W., Mirdita, M., Levy Karin, E. et al. Rapid and sensitive protein complex alignment with Foldseek-Multimer. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02593-7