
DRUGONE
准确的蛋白质结构预测对于理解蛋白质功能与推动生物医学研究至关重要。然而,随着蛋白质序列数据库规模迅速扩张并频繁更新,保持 AlphaFold 结构模型与最新序列一致仍是一个重大挑战。为解决这一问题,研究人员开发了 AlphaSync(alphasync.stjude.org),一个与 UniProt 完全同步的结构数据库,提供 260 万个蛋白质的结构模型,并覆盖 925 个物种。
AlphaSync 包含针对 40,016 个更新蛋白及其同工型的新预测结构,实现 42 个物种的完整、最新参考蛋白组覆盖,包括人类、主要模式生物及多种致病微生物。数据库还提供残基层级注释(如溶剂可及性、二面角、结构无序等),并记录超过 47 亿个原子级非共价接触。其易用的 Web 界面与 API 使研究人员能够进行结构功能分析、变异评估及与蛋白设计相关的机器学习任务。

AlphaFold 结构的更新需求显著
AlphaFold2 虽然提供了高精度结构预测,但当前 AFDB(AlphaFold Protein Structure Database)中的模型常与最新 UniProt 序列不同步。研究人员发现,在 20,639 个经 UniProt 审核的人类参考蛋白中,有 676 个(3.3%)蛋白在 2022–2025 年间被更新或新增。其中包括:
不同步的序列会导致残基编号错误、结构解释偏差及生物医学分析混淆,因此对最新结构数据库的需求非常紧迫。
AlphaSync 数据库的构建与特点
AlphaSync 的核心思想是:让每个 UniProt 序列都拥有一个最新、最佳匹配、可信的结构模型。
其流程如下:

目前,AlphaSync:

同工型结构预测拓宽生物功能解析能力
UniProt 中大量蛋白拥有同工型结构,许多疾病相关基因通过剪接变体实现不同功能。AlphaSync 针对这些同工型重新预测结构,突出优势包括:
对超大蛋白与不规则序列的独特处理
AlphaSync 实现了对计算困难蛋白的无缝预测:
超大蛋白(≥2700 aa)
使用“分段预测+结构合并”策略,成功预测:
非标准氨基酸(U/B/Z/X)处理策略
这些策略避免结构缺失,同时最大程度保留生物学意义。
丰富的残基层级注释提升下游分析能力
AlphaSync 为 11.2 亿个残基提供:
可用于:
方法
方法部分主要包括:
数据来源与同步策略
AlphaFold2 预测流程优化
大蛋白的分段与合并
每段 1400 aa,步长 200 aa。
合并策略:
残基注释计算
庞大计算量的实现
结论
AlphaSync 提供了一个 与 UniProt 完全同步、全面、可扩展、注释丰富 的蛋白质结构数据库,旨在弥补 AFDB 的更新滞后问题。其优势包括:
研究人员将随着 UniProt 每两个月的更新同步升级 AlphaSync,使其始终保持最新状态。
整理 | DrugOne团队
参考资料
内容为【DrugOne】公众号原创|转载请注明来源