首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AlphaSync: 同步 UniProt 的下一代AlphaFold结构数据库

AlphaSync: 同步 UniProt 的下一代AlphaFold结构数据库

作者头像
DrugOne
发布2025-11-29 17:26:04
发布2025-11-29 17:26:04
290
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

准确的蛋白质结构预测对于理解蛋白质功能与推动生物医学研究至关重要。然而,随着蛋白质序列数据库规模迅速扩张并频繁更新,保持 AlphaFold 结构模型与最新序列一致仍是一个重大挑战。为解决这一问题,研究人员开发了 AlphaSync(alphasync.stjude.org),一个与 UniProt 完全同步的结构数据库,提供 260 万个蛋白质的结构模型,并覆盖 925 个物种。

AlphaSync 包含针对 40,016 个更新蛋白及其同工型的新预测结构,实现 42 个物种的完整、最新参考蛋白组覆盖,包括人类、主要模式生物及多种致病微生物。数据库还提供残基层级注释(如溶剂可及性、二面角、结构无序等),并记录超过 47 亿个原子级非共价接触。其易用的 Web 界面与 API 使研究人员能够进行结构功能分析、变异评估及与蛋白设计相关的机器学习任务。

AlphaFold 结构的更新需求显著

AlphaFold2 虽然提供了高精度结构预测,但当前 AFDB(AlphaFold Protein Structure Database)中的模型常与最新 UniProt 序列不同步。研究人员发现,在 20,639 个经 UniProt 审核的人类参考蛋白中,有 676 个(3.3%)蛋白在 2022–2025 年间被更新或新增。其中包括:

  • 多个临床重要基因;
  • 多个与癌症相关的驱动基因;
  • 数十个功能未知的新蛋白质;
  • 多个灵长类特有基因家族成员。

不同步的序列会导致残基编号错误、结构解释偏差及生物医学分析混淆,因此对最新结构数据库的需求非常紧迫。

AlphaSync 数据库的构建与特点

AlphaSync 的核心思想是:让每个 UniProt 序列都拥有一个最新、最佳匹配、可信的结构模型。

其流程如下:

  • 从 AFDB 获取结构模型并提取其序列;
  • 与最新 UniProt 序列进行完美匹配;
  • 若 AFDB 中无匹配结构,则利用 AlphaFold2 对序列重新预测;
  • 统一残基层级注释:溶剂可及性、无序区、二面角等;
  • 添加全原子非共价接触信息;
  • 通过 Web、API 形式提供可视化与数据下载。

目前,AlphaSync:

  • 提供 2,615,011 个蛋白结构(覆盖 925 个物种);
  • 包含 69,118 个新预测模型;
  • 完整覆盖 42 个关键物种的参考蛋白组;
  • 包含 36,878 个同工型结构;
  • 提供 47 亿个原子级残基间接触。

同工型结构预测拓宽生物功能解析能力

UniProt 中大量蛋白拥有同工型结构,许多疾病相关基因通过剪接变体实现不同功能。AlphaSync 针对这些同工型重新预测结构,突出优势包括:

  • 帮助识别异构体间的功能差异;
  • 支持抑制剂与配体设计(如 VEGF165B 的结构差异);
  • 洞见长度差异明显的同工型的结构变化(>70 aa)。

对超大蛋白与不规则序列的独特处理

AlphaSync 实现了对计算困难蛋白的无缝预测:

超大蛋白(≥2700 aa)

使用“分段预测+结构合并”策略,成功预测:

  • BRCA2
  • Titin(34,350 aa)
  • Laminin α3
  • 其他大型结构域蛋白

非标准氨基酸(U/B/Z/X)处理策略

  • U → C
  • B → N
  • Z → Q
  • X 根据位置替换为柔性 Gly 链段或 Ala

这些策略避免结构缺失,同时最大程度保留生物学意义。

丰富的残基层级注释提升下游分析能力

AlphaSync 为 11.2 亿个残基提供:

  • 溶剂可及性(ASA、RSA)
  • 内在无序预测
  • 二级结构分类
  • 二面角 φ/ψ
  • 原子级非共价接触(距离、类型、PAE支持)

可用于:

  • 抗体表位分析
  • 疾病突变功能预测
  • 折叠稳定性研究
  • 分子设计与构象能量分析

方法

方法部分主要包括:

数据来源与同步策略

  • 使用 UniProt REST API 与 FTP 获取最新序列;
  • 对 AFDB 结构进行序列匹配;
  • 若无匹配,则使用 AlphaFold2.3.2 重新预测;
  • 使用最佳平均 pLDDT 模型作为最终结构。

AlphaFold2 预测流程优化

  • 将 AlphaFold 2 管线拆分为 CPU(MSA) + GPU(推理);
  • 更换数据库:使用 PDB100 替代 PDB70;
  • 使用最新模板结构(至 2024 年 11 月);
  • 对失败预测采用逐级降版本回退策略;
  • 显著提高推理稳定性与覆盖率。

大蛋白的分段与合并

每段 1400 aa,步长 200 aa。

合并策略:

  • 距离、SASA、RSA、pLDDT 取加权平均
  • 二级结构取多数投票
  • 滤除片段边界 200 aa 以内的假信号

残基注释计算

  • SASA / RSA 来自 DSSP 计算
  • 无序度基于 RSA10 sliding window
  • 二面角来自 BioPython
  • 非共价接触来自 Lahuta(原子级)

庞大计算量的实现

  • 69,118 个结构预测耗时约 13 年(多核顺序时间)
  • 使用 DGX-A100 节点与 HPC 加速
  • 结果以 CC BY 4.0 发布,全部公开可下载

结论

AlphaSync 提供了一个 与 UniProt 完全同步、全面、可扩展、注释丰富 的蛋白质结构数据库,旨在弥补 AFDB 的更新滞后问题。其优势包括:

  • 保持序列与结构完全同步;
  • 覆盖 42 个物种的完整参考蛋白组;
  • 提供超过 4.7 亿个非共价接触与丰富残基注释;
  • 为结构功能研究、疾病突变解读、蛋白设计提供支撑;
  • 提供易用 Web/ API,适配大规模计算工作流。

研究人员将随着 UniProt 每两个月的更新同步升级 AlphaSync,使其始终保持最新状态。

整理 | DrugOne团队

参考资料

  • Lang, B., Mészáros, B., Sejdiu, B.I. et al. AlphaSync is an enhanced AlphaFold structure database synchronized with UniProt. Nat Struct Mol Biol (2025). https://doi.org/10.1038/s41594-025-01719-x
  • https://alphasync.stjude.org/

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档