2021年7月15日,DeepMind团队在Nature杂志上发表了文章"Highly accurate protein structure prediction with AlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。
蛋白质对生命至关重要,了解它们的结构可以促进对其功能和机制的理解。通过巨大的实验努力,已经确定了大约 100,000 种独特蛋白质的结构,但这仅代表了数十亿已知蛋白质序列中的一小部分。确定单个蛋白质结构所需的数月至数年的艰苦努力阻碍了结构覆盖。需要准确的计算方法来解决这一差距并实现大规模结构生物信息学。仅根据其氨基酸序列预测蛋白质的3D 结构,50 多年来一直是一个重要的开放研究问题。尽管最近取得了进展,但现有方法仍远未达到原子精度,尤其是当没有可用的同源结构时。DeepMind团队提出了一种计算方法名为AlphaFold 2,即使在不知道相似结构的情况下,也可以以原子精度定期预测蛋白质结构。DeepMind 团队在具有挑战性的第 14 次蛋白质结构预测关键评估 (CASP14) 中验证了 基于神经网络的模型的完全重新设计的版本 AlphaFold2,在大多数情况下表现出与实验相媲美的准确性,并且大大优于其他方法。
推荐阅读:
DeepMind的蛋白质折叠AI解决了50年来的生物学重大挑战
AlphaFold 2是一种新颖的机器学习方法,它将关于蛋白质结构的物理和生物学知识,利用多序列比对,融入深度学习算法的设计中。
文章第一份Supplementary Information长达62页,描述了AlphaFold2系统、模型和分析的方法细节,包括数据管道、数据集、modJumpel块、损失函数、训练和推理细节,以及消融。包括补充方法、补充图、补充表和补充算法。
AlphaFold2 源码GitHub
https://github.com/deepmind/alphafold
为了尽可能接近地重现AlphaFold 2的 CASP14 结果,您必须使用AlphaFold 2在 CASP 中使用的相同数据库版本。这些可能与提供的脚本下载的默认版本不匹配。
参考资料
Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021).
https://doi.org/10.1038/s41586-021-03819-2