
生物分子凝聚体(biomolecular condensates)的界面在蛋白聚集、液-固转变以及多种生化反应中具有关键作用,因此被认为是调控凝聚体行为的重要靶点。然而,目前研究人员对于驱动分子优先富集于凝聚体界面的“分子语法”仍缺乏系统理解。本文中,研究人员构建了一套整合高通量粗粒化分子动力学模拟、机器学习以及混合整数线性规划(MILP)的计算框架,用于从头设计能够定位于特定凝聚体界面的短肽。研究人员分别针对三种由内在无序蛋白区域形成的凝聚体进行了设计与实验验证,成功获得能够稳定富集于界面的功能肽。
研究发现,这些界面肽普遍呈现类似表面活性剂的结构特征:一端富含芳香族氨基酸,可插入凝聚体内部并与支架蛋白发生强相互作用;另一端则倾向于停留在稀相区域,其组成会随凝聚体整体净电荷的不同而变化。整体而言,该研究不仅建立了一种理性设计凝聚体界面肽的通用策略,也揭示了界面定位行为背后的关键设计原则。

近年来,大量研究表明,细胞能够通过形成无膜细胞器(即生物分子凝聚体)来实现时空尺度上的生化调控。这些富含蛋白质和RNA的凝聚体参与RNA代谢、应激响应等重要生理过程,同时也与神经退行性疾病中的异常聚集和淀粉样纤维形成密切相关。传统研究更多关注凝聚体内部的局部浓度变化,但越来越多证据显示,凝聚体“界面”本身同样具有重要生物学功能。
例如,hnRNPA1凝聚体界面能够促进淀粉样纤维形成,而FUS凝聚体界面则可促进液-固相转变。此外,凝聚体界面还能促进α-synuclein等客户蛋白聚集,并影响局部氧化还原反应与电势分布。因此,如果能够在不破坏凝聚体主体性质的前提下,精准调控界面区域,就有望实现对凝聚体行为的工程化控制。
在传统胶体科学中,界面调控通常依赖表面活性剂分子实现,但对于生物分子凝聚体而言,这种策略并不容易直接应用。原因在于凝聚体浓相与稀相之间差异较小,两者均含有大量水和离子,因此很难像油水体系那样构建经典两亲性分子。此外,短肽由于尺寸较小,可用于界面作用的相互作用位点有限,因此更难稳定停留在界面区域。
与此同时,虽然已有部分天然蛋白、聚合物以及PEG修饰分子被发现具有界面富集能力,但目前仍缺乏一种能够高通量探索序列空间并实现从头设计的系统方法。因此,研究人员决定结合粗粒化模拟、机器学习与优化算法,建立一套能够自动搜索“界面肽”序列的设计框架。
方法
研究人员选择设计长度为30个氨基酸的短肽,以兼顾序列多样性与化学合成可行性。整个设计流程首先从随机生成的肽序列出发,并通过Waltz、TANGO和AGGRESCAN等聚集倾向预测工具过滤掉容易形成聚集的序列。随后,研究人员利用Mpipi粗粒化力场,对每条肽序列进行两类模拟:其一用于评估单条肽在凝聚体界面的富集概率,其二用于评估肽之间的同源相互作用强度。之后,研究人员基于模拟结果训练多输出神经网络模型,用于预测界面定位能力与自聚集倾向。最终,研究人员将训练后的神经网络嵌入MILP优化框架中,在巨大的序列空间中搜索同时满足“高界面富集”和“低自聚集”的最优序列。整个流程结合主动学习策略不断迭代更新,从而逐步优化设计结果。

图1: 研究整体工作流程。
结果
构建融合分子模拟、机器学习与MILP的界面肽设计框架
研究人员首先建立了完整的界面肽设计流程。该流程以目标凝聚体为输入,通过粗粒化模拟获得界面自由能信息,并利用神经网络学习“序列—界面行为”之间的关系。随后,通过MILP算法在理论上全局搜索最优序列,而非像传统遗传算法那样容易陷入局部最优。研究结果显示,该策略能够有效提升界面定位能力,并快速收敛至稳定的Pareto最优前沿。

图2: 界面自由能计算、神经网络训练与MILP优化框架示意图。
成功设计能够靶向hnRNPA1-LCD凝聚体界面的短肽
研究人员首先以hnRNPA1-LCD形成的凝聚体作为目标体系。经过多轮优化后,设计得到的肽序列界面富集能力相比初始随机序列提升了约三个数量级。优化后的序列逐渐表现出明显的“表面活性剂样”结构:一端富含色氨酸和精氨酸,另一端则富含赖氨酸。
模拟结果表明,富含芳香残基的一端会深入凝聚体内部,并与hnRNPA1中的芳香区域形成强烈π-π以及阳离子-π相互作用;而富含赖氨酸的一端则由于与凝聚体整体正电荷相斥而停留在外部,从而形成稳定的界面定位结构。研究人员进一步发现,界面区域会随着肽浓度增加而富集更多芳香族与带负电的残基,说明这些肽不仅能够停留于界面,还可能重塑界面局部结构。

图3: 针对hnRNPA1-LCD凝聚体设计的界面肽及其模拟分析。
实验验证界面肽能够稳定富集于凝聚体表面并改变凝聚体尺寸
研究人员随后对优化得到的肽进行体外实验验证。通过Cy5荧光标记和共聚焦显微镜观察发现,设计得到的肽能够在hnRNPA1-LCD凝聚体外围形成明显荧光环,证明其确实富集于界面区域。相比之下,对照肽则均匀分布于凝聚体内部。
进一步分析显示,这些界面肽能够显著降低凝聚体平均粒径,并抑制凝聚体融合行为。动态光散射实验还发现,界面肽能够促进形成更小尺度的纳米级聚集体。此外,FLIM实验表明,虽然界面性质发生改变,但凝聚体内部整体黏度与微环境变化较小,说明这些肽主要作用于界面而非内部。

图4: hnRNPA1-LCD界面肽的体外实验验证结果。
不同凝聚体对应不同的界面设计规则
为了探索界面定位的一般规律,研究人员进一步针对LAF-1-RGG与DDX4N凝聚体进行了设计。结果发现,不同凝聚体会诱导形成不同类型的“排斥尾部”。
对于带正电的hnRNPA1-LCD和LAF-1-RGG体系,界面肽通常会形成富含赖氨酸的尾部,以通过静电排斥停留在界面。而对于净电荷接近中性的DDX4N体系,赖氨酸尾部效果下降,算法则更倾向于生成富含缬氨酸的低相互作用尾部,从而避免完全进入浓相。
实验结果同样验证了这些设计策略的有效性:针对不同凝聚体设计的肽均能够形成界面富集现象,并降低凝聚体融合与尺寸增长。研究人员据此提出,凝聚体整体净电荷是决定界面肽设计策略的关键物理化学参数。

图5: 不同凝聚体体系中的界面肽设计规律与实验验证。
不同粗粒化力场之间具有一定可迁移性
考虑到设计结果可能依赖特定力场参数,研究人员进一步采用CALVADOS 2和Martini3-IDP等其他粗粒化力场重新评估所设计肽的行为。结果显示,虽然不同力场下界面定位程度存在一定差异,但整体趋势保持一致,大多数设计肽仍表现出明显的界面富集倾向以及类似的“表面活性剂样”结构。
这说明该设计框架具有一定跨力场泛化能力,同时也提示未来更精准的力场模型将进一步提升设计可靠性。

图6: 生物分子凝聚体界面肽的设计原则总结。
讨论
本研究建立了一套融合粗粒化分子模拟、机器学习与MILP优化的从头设计框架,实现了针对生物分子凝聚体界面的功能肽设计。研究人员不仅成功设计出能够稳定富集于hnRNPA1-LCD、LAF-1-RGG和DDX4N凝聚体界面的短肽,还通过实验验证了这些肽能够调节凝聚体尺寸与融合行为。
研究结果表明,这些界面肽普遍呈现“类表面活性剂”结构:一端负责进入凝聚体并与支架蛋白发生强相互作用,另一端则被排斥于浓相之外,从而实现稳定的界面停留。与传统表面活性剂依赖疏水烷基链不同,这些肽主要依赖芳香残基介导的π相关相互作用实现界面行为。
此外,研究人员提出,凝聚体整体净电荷是决定界面肽结构的重要因素:带电凝聚体倾向于通过静电排斥形成界面尾部,而中性凝聚体则更多依赖弱相互作用残基实现相分离界面定位。
研究人员同时指出,目前设计框架主要针对低浓度条件下的单分子界面行为,未来可进一步扩展至高浓度、多组分甚至包含球状结构域与客户蛋白的复杂凝聚体体系。此外,随着更高精度粗粒化力场的发展,该类AI驱动的界面分子设计策略有望在凝聚体工程、生物材料设计以及神经退行性疾病干预等方向展现更大潜力。
整理 | DrugOne团队
参考资料
Schneider, T.N., Gil-Garcia, M., Bühler, M.A. et al. De novo design of peptides localizing at the interface of biomolecular condensates. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-73099-9
