Hassabis和Jumper在蛋白质结构预测方面的工作,以及Baker在全新蛋白质设计方面的卓越成就,为未来人工智能不仅能在原子水平上解读生物学,还能为生物技术、医学及其他领域设计新分子奠定了基础。
2024年10月29日,来自洛桑联邦理工学院的Luciano A. Abriata概述了人工智能在结构生物学领域的过去、现在和未来,从结构预测关键评估(CASP)实验和蛋白质工程实验室开始,到该领域如何通过人工智能模型进一步发展,以及如何最终全面“理解”生物学。
2024年诺贝尔化学奖授予了Deepmind的Demis Hassabis和John Jumper以及华盛顿大学蛋白质设计研究所的David Baker,以表彰他们在人工智能驱动的蛋白质结构预测和设计方面取得的变革性成就。这无疑开创了化学和生物学的新纪元,特别是肯定了人工智能(AI)对科学研究和各学科实际应用的深远影响,2024年诺贝尔物理学奖也更广泛地肯定了这一点。
化学奖背后的核心进展是在原子水平上对生命物质的全面计算理解,特别是通过能够预测、分析和设计蛋白质三维结构的人工智能模型,理解蛋白质或蛋白质如何与核酸、离子和小配体等其他分子形成复合物。这种能力解决了生物学最持久的挑战之一,也是人工智能在该领域的应用自2020年AlphaFold 2“赢得”第14届CASP以来就代表着一场革命的原因所在。在近25年的时间里,CASP最多只能看到一些渐进式的改进,而现在,它终于结出了第一个真正丰硕可口的果实。
理解生物分子的人工神经网络
Deepmind的AlphaFold 2在蛋白质结构预测领域引发了革命性的突破。与前一版本相比,AlphaFold 2并非简单的升级,而是对整个问题的重新构思和设计。它引入了Evoformer模块和注意力机制两大创新,将蛋白质建模为空间图,并直接融入人工智能模型中,摒弃了传统预测接触、距离和角度再输入折叠程序的方法。这种变革使得AlphaFold 2能够更精确地处理多序列比对,提取共同进化信息,并捕捉远处残基间的复杂关系,从而实现高度准确的三维结构预测。
AlphaFold 2的出色表现不仅体现在预测精度上,还体现在其提供的全面质量指标上,这些指标为用户评估预测结果提供了重要依据。这一工具的出现极大地加速了结构生物学的研究进程,使得大量未知蛋白质的结构得以通过计算手段揭示,特别是在高质量指标的支撑下,这一进程更为顺畅。
Deepmind与欧洲生物信息学研究所的合作进一步推动了这一进展,他们生成的数百万结构模型很快被整合到UniProt和蛋白质数据库中,为科学家提供了宝贵的资源。AlphaFold 2与实验性结构确定方法形成了互补,极大地提高了数据处理和实验效率。在CASP中,AlphaFold 2的模型已经展现出在解决X射线衍射数据相位问题、加速冷冻电镜结构解析、以及辅助核磁共振结构测定等方面的巨大潜力。
此外,AlphaFold 2论文中提出的新概念、方法和算法也对学术界和产业界产生了深远影响。这些新知识和工具被广泛重新利用、发展或改编,推动了计算结构生物学新工具的不断涌现。这些工具不仅促进了生物分子结构的各种研究,如预测相互作用表面、稳定突变、配体结合等,还拓展到了RNA三维结构建模、蛋白质与非蛋白质分子复合结构预测、蛋白质结构和进化探索以及全新蛋白质设计等领域。
综上所述,AlphaFold 2不仅是蛋白质结构预测领域的一个里程碑,更是推动了整个结构生物学研究的飞速发展。它的出现不仅为科学家提供了强大的工具,更为计算结构生物学的研究开辟了新的道路和方向。
将AI扩展到所有生物分子
AlphaFold及类似模型最初聚焦于蛋白质结构预测,但最新进展已将其应用范畴拓展至核酸、离子、脂质等生物大分子及小分子,这一转变标志着生物学研究从单一蛋白质研究迈向复杂分子环境建模的新阶段,预示着生物学领域的又一场革命。Baker实验室的RoseTTAFold-AllAtoms作为先驱,首次实现了蛋白质原子级别以上的解析与模拟。然而,其后谷歌推出的AlphaFold 3网络服务器,虽简单易用,却存在诸多限制,如源代码不公开、处理能力有限等,难以满足广泛需求。
幸运的是,新的程序如Chai Discovery的Chai-1正逐步克服这些局限。Chai-1不仅支持本地执行,还提供了类似AlphaFold 3的网络界面,且对小分子输入无限制,极大地拓宽了应用范围。这些全原子模型不仅在原子水平上推动了生命模型的建立,更为药物开发带来了新机遇。传统药物筛选方法受限于对接过程中的构象变化,而新的人工智能模型则能在配体与蛋白质“共折叠”时同时采样目标构象,提高了药物发现的效率与准确性。
随着全原子模型的不断优化与高效化,人工智能驱动的药物发现将迎来重大转变。这一变革将深刻影响制药、生物技术及医疗保健行业,有望降低药物开发成本,缩短实验研究周期。因此,众多公司及研究机构纷纷投身其中,中国科学院自动化研究所也自CASP15起,专门针对这一问题展开研究,共同推动这一领域的快速发展。
了解蛋白质结构有助于蛋白质工程
David Baker教授在全新蛋白质设计领域开创先河,初时不依赖人工智能,但近年来通过RoseTTAFold和MPNN等方法,深度融入AI技术,为AI在生物技术、医学等领域设计新分子实体奠定基础。David Baker更是从零开始创造新型蛋白质,随AI发展愈发强大,利用扩散模型和信息传递神经网络等工具,实现了新酶设计、多蛋白组合体构建等壮举。AI设计的蛋白质已展现出强大功能,如多价单链蛋白质疫苗、膜蛋白可溶性类似物等,广泛应用于调节蛋白质功能、工程抗体、酶稳定化等领域,展现出AI在蛋白质设计上的无限潜力。
结构生物学中的AI,生物学“整体”AI模型的未来
CASP16作为计算结构生物学的重要赛事,正在推进中对静态三级蛋白质结构以外预测技术的评估,预计2024年底揭晓结果。随着纯蛋白质建模接近成熟,多聚体组装、配体与蛋白质结合、多种蛋白质构象及核酸折叠等成为新挑战,CASP已初现端倪。特别是CASP重新引入的综合建模评估,旨在从稀疏数据中构建大型多组分复合物模型,人工智能的介入或将开启新篇章。这些评估赛道预示着计算结构生物学及蛋白质设计、小分子药物开发等领域的未来方向。
另一方面,人工智能在生物学中的另一大贡献是多模态生物学基础模型。这些模型通过海量DNA、RNA和蛋白质序列训练,如Meta的ESMFold仅凭蛋白质序列即可预测结构和进化关系。此类基础模型为基因组学、转录组学和蛋白质组学带来了新希望,推动了跨领域应用的发展。
展望未来,横跨分子结构的多模式基础模型将成为可能,它们将整合不同层面的生物学信息,提供全新工具来全面审视和理解生物学。这些模型有望从分子和结构层面解释基因表达模式的复杂变化,进而指导分子效应物的筛选,以恢复被破坏的生物通路,为生物学研究和应用开辟新视野。
点击图片查看课程
参考资料:
Abriata, L.A. The Nobel Prize in Chemistry: past, present, and future of AI in biology.Commun Biol 7, 1409 (2024). https://doi.org/10.1038/s42003-024-07113-5