首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat Methods | AlphaFold 看见了结构,下一步要看见蛋白质的呼吸

Nat Methods | AlphaFold 看见了结构,下一步要看见蛋白质的呼吸

作者头像
MindDance
发布2026-05-26 19:39:57
发布2026-05-26 19:39:57
420
举报

5 月,Nature Methods 发表了一篇 Perspective 文章,题为 From possibility to precision in macromolecular ensemble prediction。作者 Stephanie A. Wankowicz 来自范德堡大学,研究背景覆盖蛋白质动态、结构生物学与 AI;另一位作者 Massimiliano Bonomi 来自巴斯德研究所、巴黎城市大学与 CNRS 的计算结构生物学团队。两位作者讨论了一个底层的问题:如果生命分子本来就在运动,我们为什么还主要用一张静态结构来理解它们?

过去几年,AlphaFold2、RoseTTAFold、ESMFold、AlphaFold3 等模型把蛋白质结构预测推到了新高度。研究者可以从氨基酸序列快速得到一个三维结构,药物研发、蛋白设计、功能注释都因此改变。但这篇文章提醒我们,很多生物功能并不发生在某一个固定姿势上。蛋白质、核酸、核糖体、受体、酶和内在无序区,更像是在一片能量地形上来回摆动的分子群像。它们的功能来自许多构象之间的转换,以及每一种构象在特定环境下出现的概率。

文章的核心判断:结构预测的下一步,不只是把一个结构预测得更准,而是要预测一个带有概率、条件和不确定性的构象集合。 这一步要走通,光靠更大的模型还不够。领域需要新的实验数据、新的真值集合、新的编码方式、新的评价指标,也需要实验结构生物学、分子动力学和机器学习形成闭环。


AlphaFold 之后,为什么还要重新谈蛋白质的运动

AlphaFold 的成功很容易让人产生一种直觉:蛋白质结构问题已经被解决了。这个判断在某些场景下成立,尤其是当我们关心一个稳定折叠结构的整体拓扑时,AI 结构预测已经非常有用。AlphaFold 数据库如今提供超过 2 亿个蛋白质结构预测,PDB 也积累了约 25 万条经实验解析的大分子结构。结构生物学从一个依赖多年实验积累的领域,突然进入了一个可以大规模调用三维结构的时代。

但结构越多,另一个问题反而越明显:生命分子不是雕塑。

在细胞里,蛋白质的侧链会翻转,环区会开合,结构域会相对移动,复合物会装配和解离,受体会在不同活化状态之间切换。对很多体系来说,实验解析出的结构更像是一次定格摄影。它当然珍贵,但它只截取了分子生命中的一个瞬间。真正决定结合、催化、变构调控、分子识别和药物响应的,往往是一组构象及其相对概率。

用热力学语言说,蛋白质的结合能力、稳定性和功能状态,并不是由单一微观结构决定的,而是由许多微状态共同贡献。每个微状态都有自己的能量,也对应一个玻尔兹曼权重;所有这些状态一起构成配分函数,并最终表现为我们在实验中测到的宏观性质。换句话说,实验读数背后站着的不是一个分子姿势,而是一群带权重的姿势。

这也是文章把问题推向更深处的原因。AlphaFold2 的突破并不是凭空发生的。它背后有 PDB 这样的高质量结构数据库,也有 CASP 这样的盲测评估体系,还有 RMSD、lDDT 等评价指标帮助社区判断一个结构预测到底有多准。静态结构预测能迎来跃迁,靠的是数据、基准、指标、模型四件事同时成熟。

而构象集合预测现在缺的正是这些基础设施。我们还没有足够大规模、足够高分辨、足够可靠的构象集合真值数据;也没有统一方式去表示一个构象集合;更没有被广泛接受的指标去比较两个构象集合是否等价,或者判断一个预测结果是否足够好。于是,领域面对一个非常朴素但难回答的问题:我们到底要预测什么,又如何知道自己预测对了?

从一张结构图,走向一张能量地图

过去的结构生物学常常以结构为终点。解析出一个蛋白质结构,标出活性位点、结合口袋、界面残基,再解释功能。这个范式非常成功,也奠定了现代分子生物学和药物发现的基础。但在一些体系里,单一结构只能解释故事的一半。

核糖体就是一个典型例子。它不是一台刚性的分子机器,而是在多个宏观构象之间转换。旋转状态、延伸因子结合状态、tRNA 移动状态等,都与翻译速度、准确性和外界调节有关。即使蛋白质和 RNA 组分发生细微波动,也可能改变不同状态之间的平衡,进而影响翻译保真度,甚至影响抗生素作用和耐药机制。

G 蛋白偶联受体也是类似的情形。配体不是简单地插进一个静态口袋,而是在改变受体构象集合的分布。有些构象更接近激活态,有些构象更接近非激活态;不同配体会把分布推向不同方向。酶催化同样如此,许多关键步骤依赖短暂出现的稀有构象。内在无序蛋白和无序区则更进一步,它们本来就没有一个占绝对主导的折叠结构,功能常常来自一个宽阔而可塑的构象集合。

这类问题对药物设计尤其关键。传统结构辅助药物设计常常围绕某个口袋进行优化,但真实体系里,口袋可能会开合、重塑、短暂暴露。一个低占比构象也许恰好对应药物可结合状态。若能预测并稳定这类构象,药物设计就有机会从锁定静态口袋走向调控构象分布。文章提到的小分子构象稳定、抗体识别特定构象集合、酶设计等场景,都建立在这个逻辑上。

因此,这篇文章的意义并不在于否定静态结构。静态结构仍然是理解分子的入口。真正的变化在于,结构生物学正在从结构是什么样,进一步走向结构在不同条件下如何分布、如何变化、如何产生功能

什么是构象集合:一片带概率的自由能地形

作者首先澄清了一个容易被混用的概念:构象集合不是随便列出几个不同结构,也不是把蛋白质画成几种姿势。严格说,它描述的是在给定条件下,大分子可能访问的全部构象状态,以及每个状态对应的热力学概率。

一个折叠蛋白内部也有层级性的异质性。最快的层面是原子振动,然后是侧链旋转异构体的翻转,再到环区重排,最后是结构域的大尺度运动。这些运动不是杂音,而是自由能地形的一部分。局部谷底对应相对稳定的构象,山脊和通道决定构象之间如何转换。环境变化、配体结合、突变、pH、温度、拥挤效应,都可能改变这片地形。

蛋白质构象存在多层级异质性,从原子振动、侧链摆动、环区重排到结构域大尺度运动,共同构成自由能地形上的构象集合。功能变化往往来自这片地形的形状改变,而不是单一结构的有无。
蛋白质构象存在多层级异质性,从原子振动、侧链摆动、环区重排到结构域大尺度运动,共同构成自由能地形上的构象集合。功能变化往往来自这片地形的形状改变,而不是单一结构的有无。

蛋白质构象存在多层级异质性,从原子振动、侧链摆动、环区重排到结构域大尺度运动,共同构成自由能地形上的构象集合。功能变化往往来自这片地形的形状改变,而不是单一结构的有无。

上图最适合作为全文的概念图。它把抽象的构象集合画成一条自由能曲线:分子不是停在一个点上,而是在多个谷底之间分布。对读者来说,这张图能帮助他们理解后文为什么要谈概率、权重和配分函数。

这里有一个关键边界需要说清:很多实验和算法已经可以捕捉多个宏观状态,比如激酶的活性态和非活性态、转运蛋白的内向开放态和外向开放态。但文章强调,宏观状态只是对大量微状态的粗粒度概括。如果只看几个离散大状态,可能会漏掉低占比但功能关键的微状态,也难以准确解释实验观测到的平均信号。

所以,构象集合预测的目标不是把一个蛋白质多生成几张不同姿势图,而是要回答更难的问题:这些状态是什么,它们各自占多少比例,它们如何随条件变化而重新分布。

研究内容:构象集合预测面临四道基础门槛

文章把大分子构象集合预测的瓶颈归纳为四类。它们看似技术化,本质上是在重建一个新领域的地基。

第一,不同学科对构象集合的定义并不统一。 统计热力学、NMR、冷冻电镜、晶体学、分子动力学、机器学习,对集合的理解和表示方式并不完全相同。有人关注状态,有人关注轨迹,有人关注平均实验信号,有人关注可采样的分布。定义不统一,后续训练、验证和比较都会变得含糊。

第二,没有一种实验技术能单独给出完整答案。 冷冻电镜和 X 射线晶体学可以提供高分辨结构,但样品往往处于冻结状态或晶体环境中;NMR 能观察溶液中的动态平均信息,却受体系大小和灵敏度限制;FRET、DEER、SAXS、原子力显微镜等技术能捕捉距离变化或大尺度运动,但信息通常较稀疏。每种技术都有窗口,也都有盲区。

第三,实验数据本身往往是平均的、稀疏的、有噪声的。 大多数结构生物学观测并不是直接看见每个微状态,而是把大量分子、许多时间点、多个构象的信号压缩成一个平均结果。反过来从平均信号推断原始构象集合,本质上是一个欠定的逆问题。多个完全不同的构象集合,可能都能解释同一组实验数据。

第四,构象集合还缺少统一编码、比较指标和不确定性量化。 静态结构可以用坐标表示,可以用 RMSD 或 lDDT 评价。但一个构象集合包含多个状态和对应权重,还可能带有层级关系、组成异质性和条件依赖性。用一个单一 RMSD 去比较它们,很容易把真正重要的局部变化淹没掉。

这四个问题共同解释了为什么构象集合预测不会简单重复 AlphaFold 的路径。AlphaFold 式突破需要训练数据和评价体系先成熟。构象集合预测现在的处境更像是在建造 PDB 和 CASP 的动态版本。

如何生成真值集合:单一技术走不通,整合才是出路

文章提出的第一条路线,是把统计结构生物学和整合结构生物学结合起来。

统计结构生物学关注的是从同一种技术的多份数据中挖掘隐藏异质性。比如,在 X 射线晶体学中分析多温度数据、片段筛选数据和弥散散射信号;在冷冻电镜中处理异质粒子群体和连续构象变化;在已有 PDB 数据中寻找曾经被平均掉或简化掉的备选构象。这类方法的思路是:很多动态信息其实已经在原始数据里,只是过去的建模流程更习惯输出最可能的单一结构。

整合结构生物学则强调不同实验模态的互补。冷冻电镜和晶体学提供原子级结构线索,NMR 补充局部动态信息,FRET、DEER、SAXS 和原子力显微镜捕捉大尺度距离和形态变化,交联质谱、氢氘交换等方法提供更多约束。分子动力学和结构预测模型可以在这些实验约束之间补全可能路径。

构象集合真值数据需要两条路线协同生成:一条是在同类实验数据中用统计方法挖掘隐藏状态,另一条是整合冷冻电镜、核磁共振、晶体学、分子动力学、质谱、氢氘交换等多模态信息,覆盖从侧链、环区到大尺度结构域运动的不同层级。
构象集合真值数据需要两条路线协同生成:一条是在同类实验数据中用统计方法挖掘隐藏状态,另一条是整合冷冻电镜、核磁共振、晶体学、分子动力学、质谱、氢氘交换等多模态信息,覆盖从侧链、环区到大尺度结构域运动的不同层级。

构象集合真值数据需要两条路线协同生成:一条是在同类实验数据中用统计方法挖掘隐藏状态,另一条是整合冷冻电镜、核磁共振、晶体学、分子动力学、质谱、氢氘交换等多模态信息,覆盖从侧链、环区到大尺度结构域运动的不同层级。

对未来 AI 训练来说,这一点非常关键:模型不能只吃静态结构坐标,还要学会把不同实验信号映射到同一个构象分布空间。

这里还涉及一个容易被忽视的问题:构象异质性和组成异质性要分开。 例如冷冻电镜样品中,有些差异来自同一复合物的不同构象,有些差异来自配体占有率、亚基化学计量或装配状态不同。若二者混在一起,模型可能把配体缺失误读为蛋白构象变化。文章提到的局部方差过滤、PanDDA 事件图、时间分辨技术和原生态质谱,都可以为区分这两类异质性提供线索。

逆问题:同一份实验数据,可能对应很多个分子世界

如果全文要选一个最能解释难度的概念,那就是逆问题。

在理想情况下,我们希望从实验数据反推出真实构象集合。但实验数据常常是平均信号。比如一个 NMR 或 FRET 读数,可能来自大量构象共同贡献。若两个构象集合在平均信号上表现相似,实验本身未必能告诉我们哪一个才是物理上更合理的答案。

从单一结构模态推断构象集合是一个欠定逆问题。多个真实构象被压缩成实验平均信号后,模型可能解释了大部分观测数据,却高估某些状态、漏掉另一些状态。能拟合数据,并不等于完整恢复了真实构象集合。
从单一结构模态推断构象集合是一个欠定逆问题。多个真实构象被压缩成实验平均信号后,模型可能解释了大部分观测数据,却高估某些状态、漏掉另一些状态。能拟合数据,并不等于完整恢复了真实构象集合。

从单一结构模态推断构象集合是一个欠定逆问题。多个真实构象被压缩成实验平均信号后,模型可能解释了大部分观测数据,却高估某些状态、漏掉另一些状态。能拟合数据,并不等于完整恢复了真实构象集合。

这张图用一个直观例子说明,模型输出看起来合理,甚至能较好拟合实验数据,但仍可能在状态权重上出错。某些构象被过度填充,某些构象完全缺失。对结构生物学和 AI 预测来说,这个提醒很重要:预测结果与实验数据一致,只是必要条件,不是充分条件。

文章因此强调贝叶斯推断、最大熵重加权、最大简约模型等统计框架的重要性。最大简约方法倾向于用尽可能少的参数解释数据,适合直接表达不同构象的占有率,但对细微的非谐运动和骨架变化表达能力有限。最大熵方法则试图在满足实验约束的前提下构建偏倚最小的分布,能捕捉低占比状态和更微妙的运动,但模型复杂度更高,后续还需要提取具有生物学意义的亚稳态和权重。

真正难的地方在于,任何方法如果没有认真处理不确定性,都可能过拟合。结构生物学里有很多漂亮的模型,但漂亮不等于唯一,更不等于真实。构象集合预测要想成为可靠工具,必须把不确定性写进模型本身。

编码与评价:机器要如何读懂一群结构

静态结构的表示方式已经非常成熟。PDBx/mmCIF 文件可以记录原子坐标、残基、链、配体、实验信息等内容。问题在于,这套表示体系天然更适合固定结构。它可以用备选位置记录局部多构象,可以用 B 因子或原子位移因子描述位移,也可以通过多模型方式放入多个结构。但这些机制不足以完整表达一个构象集合。

原因很直接。备选位置通常过于简约;B 因子混合了真实结构波动、实验噪声和晶格运动;多模型编码如果缺少权重信息,就无法说明每个构象出现的概率。一个构象集合不仅需要坐标,还需要状态之间的关系、相对概率、组成差异、实验约束来源和不确定性。

评价同样困难。RMSD 可以比较两张静态结构的平均原子偏差,但构象集合不是两个点之间的距离。研究者可以比较概率分布,比如使用 Jensen-Shannon 散度或 Jeffreys 散度,也可以把分子动力学构象回算成实验可观测量,如密度图、散射强度或粒子图像,再与真实实验数据比较。可这些方法都有边界:低维投影可能把不同的高维构象集合压成相似分布;同一实验数据也可能被多个不同集合解释。

文章在这里给出一个非常务实的判断:构象集合是否足够好,要看使用目的。

如果目标是解释实验数据,就必须准确估计那些贡献实验信号的构象权重。NMR 核 Overhauser 效应和 FRET 这类距离相关信号尤其敏感,因为信号可随距离的六次方倒数变化,少量短距离构象也可能显著影响平均观测。如果目标是判断突变或配体结合的影响,则关键在于预测到的状态分布差异是否超过统计不确定性。如果目标是解释功能,还要先弄清哪些结构状态真正承担功能。

这意味着未来的评价体系不会只有一个总分。它很可能是一组目的导向的指标:有的看实验拟合,有的看物理合理性,有的看功能区分能力,有的看不确定性是否诚实。


机器学习与分子动力学:下一代模型要预测分布,而不是一个点

分子动力学本来就是研究构象集合的重要工具。它从物理力场出发,模拟原子随时间运动,天然可以产生构象分布。但传统分子动力学有两个长期限制:力场不够完美,采样时间也有限。大尺度结构域运动、稀有构象转换、复杂复合物装配,往往需要远超常规模拟可承受的时间尺度。

机器学习正在从两个方向改变这个局面。一方面,机器学习力场和粗粒化势能模型有机会提高模拟精度和速度;另一方面,增强采样方法结合机器学习,可以更高效地探索构象空间。玻尔兹曼生成器使用归一化流从平衡分布中生成构象,扩散模型也开始进入蛋白质构象生成领域。近年一些模型已经尝试从静态结构、分子动力学轨迹和热力学信息中学习构象集合,内在无序蛋白和无序区也成为重要试验场。

但文章对现状保持了很清醒的判断。当前很多方法仍然离可靠构象集合预测有距离。比如,通过操纵 AlphaFold 的多序列比对可以诱导出结构多样性,但这些结构通常缺少相对概率,也未必代表热力学上稳定或可实现的状态。模型可能生成看似不同的姿势,却不知道每个姿势在真实体系中是否存在、占比多少、在什么条件下出现。过度条件化、模板泄漏、失败检测,也都还没有被系统解决。

因此,作者提出的未来不是让 AI 单独替代实验,而是建立一个循环:实验数据约束模型,模型加速实验解析;预测结果提出可检验假设,新的实验再反过来修正模型。

这个闭环如果成立,构象集合预测就会从生成结构图,走向生成可验证的分子假设。模型输出的不应只是几个坐标文件,还应包括状态权重、不确定性、可回算的实验观测、对突变或配体扰动的响应预测,以及在何种条件下可信。

从结构数据库,到动态基准库

这篇文章背后有一个很强的历史类比。AlphaFold2 的成功,离不开 PDB 和 CASP。PDB 让模型有大规模结构数据可学,CASP 让社区能在盲测中比较方法优劣。构象集合预测若要出现类似突破,也需要自己的数据生态。

这套生态至少包含几类东西。

首先是高置信构象集合数据集。它们不一定来自单一技术,而是由多模态实验、分子动力学和统计推断共同约束。这样的数据集要记录状态、权重、条件、实验来源和不确定性。

其次是统一编码标准。PDBx/mmCIF 可能需要扩展,以表达层级构象关系、构象异质性、组成异质性、状态权重和跨实验数据链接。否则,数据即使生成出来,也很难被模型系统学习。

第三是集合级评价指标。静态结构的 RMSD 和 lDDT 不足以评价分布。未来可能需要结合概率分布相似性、实验可观测量回算、物理合理性、功能扰动响应和不确定性校准。

第四是主动学习式闭环。模型可以指出哪些状态最不确定、哪些实验最能区分候选集合,实验再生成新数据去修正模型。这个过程会让结构生物学从一次性解析结构,走向持续迭代的动态建模。

这里的难度很大,但方向相当清晰。未来真正有价值的模型,可能不再回答某个蛋白长什么样,而是回答:在这个环境中,它有哪些主要状态;每个状态占多少;配体或突变会把分布推向哪里;哪些预测是稳定的,哪些预测还需要实验确认。


END:蛋白质不是一个答案,而是一组会变的答案

Christian Anfinsen 的热力学假说强调,蛋白质天然构象由氨基酸序列及其所处环境中的原子间相互作用决定。放在今天看,这句话仍然成立,只是我们对天然构象的理解正在变得更丰富。对许多大分子来说,天然构象不是一个孤立坐标,而是在特定环境下的一组构象分布。

这也是本文标题中从可能性到精确性的含义。过去,我们已经知道蛋白质会动,也知道动态与功能有关。现在的问题是,如何把这种知道变成可训练、可验证、可比较、可应用的预测体系。

静态结构预测让生命科学拥有了前所未有的结构地图。构象集合预测若能成熟,下一张地图将不只是标出山峰和山谷的位置,还会标出分子如何在其中移动,哪些路径常走,哪些状态罕见却关键,哪些扰动能改变整个地形。

那时,结构生物学看到的就不再只是分子的样子,而是分子如何生活。

参考文献

Wankowicz, S.A., Bonomi, M. From possibility to precision in macromolecular ensemble prediction. Nat Methods (2026). https://doi.org/10.1038/s41592-026-03084-z

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AlphaFold 之后,为什么还要重新谈蛋白质的运动
  • 从一张结构图,走向一张能量地图
  • 什么是构象集合:一片带概率的自由能地形
  • 研究内容:构象集合预测面临四道基础门槛
  • 如何生成真值集合:单一技术走不通,整合才是出路
  • 逆问题:同一份实验数据,可能对应很多个分子世界
  • 编码与评价:机器要如何读懂一群结构
  • 机器学习与分子动力学:下一代模型要预测分布,而不是一个点
  • 从结构数据库,到动态基准库
  • END:蛋白质不是一个答案,而是一组会变的答案
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档