参考文献: Using AlphaFold for Rapid and Accurate Fixed Backbone Protein Design
作者: 吴炜坤
随着alphafold2突破性预测蛋白结构的成功,学术界也开始尝试探索如何使用它进行高精度的蛋白序列设计。本篇快速地进行一下解读。


2.1 序列初始化
经过这样处理之后,将预测对的residue fragment提取了出来,比随机生成更有利于序列空间的搜索。
2.2 迭代end-2-end设计
设计方法的核心是通过MCMC算法对序列空间进行采样,接着使用AlphaFold预测结构,直到生成与目标结构的backbone尽可能地相似。
首先同样采用了distance map loss的计算方法,来比较设计的结构与真实结构之间差异:

ij是每个氨基酸对, y是真实的距离分布特征,p是预测的距离分布特征。
在推断过程中还计算每个残基的pLDDT,然后在5个参数集上取平均值,但不在序列长度上取平均值。

这个weight被用于设定为序列采样的概率。假设pLDDT高的区域,氨基酸是稳定的。
在决定了哪个区域的氨基酸应该被采样后,这个位点将随机等概率突变成另外一些氨基酸的类型(除了cys)。并且当这个突变让distance map loss降低时(改善预测结构吻合度时),保留此突变。最后通过如此迭代了20000轮突变,distogram score收敛。
2.3 Fast AlphaFold inference
为了快速进行迭代搜索,作者对AlphaFold的标准预测流程进行了修改:
最后的效果:在民用的RTX30系上,一次迭代大概5秒(预测100个氨基酸的长度)
2.4 设计效果的评估
作者使用了三种结构预测的方法进行评估
作者使用了人工设计的Top7作为测试集。

在第一阶段进行序列设计时,af2预测的TM-score仅有0.746,经过上述的方法进行迭代设计之后,新设计的序列与Top7的相似性仅为27%。将此序列使用af2验证时,全局的RMSD仅为0.736 Å,pLDDT score为91。而使用trRosetta进行预测时,Cα-RMSD为2.637 Å,TM-score为0.679。第三种检查方法为ab initio fragment-based的方法进行预测,经过15000个采样后,最好的结构Cα-RMSD 为1.279 Å。均证明,设计的序列与目标结构可能是同一种Fold。

Top7设计成功后,作者进一步尝试设计未在训练集中的数据Peak6 (PDB ID 6MRS)、Foldit(PDB ID 6MRR)、Ferredog-Diesel (PDB ID 6NUK)。初始序列对应匹配TM-score为0.596-0.7之间,经过设计后,af2预测结构的Cα-RMSD降低至1Å以内,pLDDT score > 85。使用ab initio fragment-based的方法进行预测Cα-RMSD均小于3Å。设计的序列与目标模板序列相似性均低于30%。在多种结构预测工具中,trRosetta预测的结构Cα-RMSD较大,这可能与输入MSA质量较差有关。
作者通过使用缩水版的alphafold2进行fix-backbone设计,本质上即使用基于pLDDTscore版本的mcmc序列采样,最后通过结构验证所设计的序列可靠性。此设计方法中没有使用到能量函数的概念,因此推测AlphaFold已经学会了一些与能量相关的结构信息。
NO CODE。