背景
近年来,基于人工智能的科研能力和应用取得了显著进展。在蛋白质结构预测领域,AlphaFold2和RoseTTAFold等基于AI的专用工具已经取得了令人瞩目的成果,它们能够以高精度对蛋白质结构进行建模,其精度可与低分辨率实验结构相媲美。这些工具依赖于蛋白质序列和结构数据集进行训练,并采用专门的神经网络架构。另一类基于AI的蛋白质结构预测工具是蛋白质语言模型,它们根据蛋白质序列进行训练,而非直接针对结构。
与此同时,生成式AI语言模型,特别是GPT系列模型,如ChatGPT背后的GPT-4,因其广泛的应用潜力而受到广泛关注。这些模型在自然语言数据集上进行训练,专门用于理解和生成自然语言文本,而非直接进行结构建模。
研究结果
单个氨基酸结构建模
氨基酸残基是蛋白质的基本组成单元,其原子组成和几何参数已经得到很好的表征,因此适合进行初级结构建模。我们要求GPT-4对20个标准氨基酸进行建模,并以传统的蛋白质数据库(PDB)文件格式输出结果。GPT-3.5被用作性能基准。通过多次迭代(每个氨基酸n=5次),我们发现GPT-4能够生成包含主链和侧链原子坐标值的三维结构,且大多数结构都接近实验参考值。尽管有零星错误,如立体化学构型错误和几何变形,但GPT-4在单个氨基酸建模中的表现明显优于GPT-3.5。
图1 使用GPT-4对20种标准氨基酸的3D结构进行建模
α-螺旋结构建模
α-螺旋是蛋白质中最常见、研究最广泛的二级结构元素。我们尝试使用GPT-4和GPT-3.5对α-螺旋多肽链进行建模,但初始尝试未能获得准确结构。随后,我们加入了Wolfram插件,这一数学计算扩展工具显著提升了GPT-4的建模能力。与Wolfram插件配合使用的GPT-4能够对10个残基的α-螺旋结构进行建模,并以PDB文件格式输出结果。建模的α-螺旋结构在精确度上与实验测定的由10个连续丙氨酸残基组成的α-螺旋结构相当。尽管GPT-4将所有残基指定为丙氨酸,但这与丙氨酸的高α-螺旋倾向相符。通过基于提示的细化,GPT-4生成的α-螺旋结构的均方根偏差(RMSD)显著减小,证明了其在结合Wolfram插件情况下的强大建模能力。
图2 用GPT-4模拟α-螺旋多肽结构的三维结构
结构相互作用分析
药物与蛋白质之间的结构相互作用是分子生物学的重要方面。我们使用GPT-4对nirmatrelvir与SARS-CoV-2主要蛋白酶之间的相互作用进行了结构分析。通过提供PDB文件输入(PDB ID:7VH8),GPT-4正确识别了nirmatrelvir配体,并列出了与其结合的氨基酸残基及其相互作用距离。此外,GPT-4还预测了可能干扰结合的突变,其中包括已证实对nirmatrelvir结合极为不利的Glu166突变。这些结果表明,GPT-4在配体相互作用分析中具有一定的实用性,但其预测结果仍需进一步验证和优化。
图3 nirmatrevir与严重急性呼吸系统综合征冠状病毒2型主要蛋白酶相互作用的结构分析。
讨论
本文的研究结果展示了GPT-4在初级结构生物学建模和药物相互作用分析中的潜力和局限性。尽管GPT-4并非专门为此目的而开发,但其广泛的训练数据集和强大的语言理解能力使其能够在一定程度上胜任这些任务。然而,GPT-4在建模复杂分子和精确几何参数方面仍存在一定的挑战。未来的研究可以进一步探索如何通过优化提示、结合其他计算工具以及训练专门用于结构建模的GPT模型来提高其建模能力。
在氨基酸建模方面,GPT-4的性能良好,但在立体化学构型和环状结构建模方面仍需改进。α-螺旋建模的结果令人鼓舞,特别是在结合Wolfram插件后,GPT-4能够生成高精度的α-螺旋结构。然而,对于更复杂的全原子结构建模,GPT-4仍需进一步提升其能力。此外,GPT-4在结构相互作用分析中的表现也令人印象深刻,尽管其预测结果仍需要结合其他分子分析软件进行验证和优化。
建模方法的探讨
GPT-4在结构建模中展现出的能力,引发了对其建模方法的深入探讨。尽管GPT-4并非为结构建模而专门设计,但其广泛的训练数据集可能包含了大量的原子坐标信息。这些信息可能来源于公开的互联网数据和第三方授权数据,使得GPT-4能够在一定程度上理解和生成结构相关的文本描述。然而,GPT-4在建模过程中的几何可变性以及对于复杂结构建模的限制,表明其建模方法可能不仅仅依赖于已有的原子坐标信息。
除了直接引用已有的原子坐标外,GPT-4在建模过程中可能还采用了从头计算的方法。这意味着GPT-4能够基于输入的提示,结合其广泛的训练数据和内在的逻辑推理能力,生成包含特定几何参数的结构描述。这种能力在GPT-4进行α-螺旋建模时尤为明显,尤其是在结合Wolfram插件后,GPT-4能够生成高度精确的结构模型。
与现有工具的对比
将GPT-4生成的α-螺旋模型与AlphaFold2、ChimeraX和PyMOL等现有计算工具生成的模型进行比较,有助于更全面地评估GPT-4的建模能力。AlphaFold2作为专门用于蛋白质结构预测的工具,其预测精度极高,且能够根据蛋白质序列生成完整的三维结构。相比之下,GPT-4在建模过程中更多地依赖于输入的提示和上下文信息,其建模范围也相对有限。然而,GPT-4在特定任务(如α-螺旋建模)中的表现却能够与这些专业工具相媲美,这进一步证明了其潜在的应用价值。
ChimeraX和PyMOL等分子分析软件则提供了丰富的分子可视化和分析工具,能够帮助用户更直观地理解和分析分子结构。虽然这些软件本身并不具备结构预测功能,但它们可以与GPT-4等AI工具相结合,形成更为强大的分子结构研究平台。通过整合不同工具的优势,研究人员可以更加高效地进行结构生物学研究。
未来展望
随着生成式AI技术的不断发展,GPT等模型在结构生物学建模和药物相互作用分析中的应用前景将更加广阔。未来的研究可以进一步探索如何通过优化提示策略、结合其他计算工具以及训练专门用于结构建模的GPT模型来提高其建模精度和实用性。同时,随着AI技术的不断成熟和普及,将有更多的研究人员能够利用这些工具进行科学研究,推动结构生物学和药物研发等领域的快速发展。
此外,随着OpenAI等公司在AI技术方面的不断创新和突破,我们可以期待更加先进和强大的生成式AI模型的问世。这些模型将在处理复杂分子结构和预测精确几何参数方面展现出更强的能力,为结构生物学研究提供更为有力的支持。
总之,本文的研究结果为生成式AI在初级结构生物学建模和药物相互作用分析中的应用提供了新的思路和方向。虽然目前仍存在一些局限性和挑战,但随着技术的不断进步和完善,我们有理由相信生成式AI将在未来发挥更加重要的作用。
参考资料:
doi: 10.1101/2024.01.10.575113
--------- End ---------