2024年4月29日,Nature发表文章‘ChatGPT for CRISPR’ creates new gene-editing tools,介绍了人工智能助力创建基因编辑新工具。
为了发现之前未知的CRISPR基因编辑系统,研究人员对温泉、泥炭沼泽、粪便甚至酸奶中的微生物进行不断的探索。现在,得益于生成人工智能的进步,他们也许只需按一下按钮,就能设计出这些系统。
本周,研究人员公布了他们如何使用一种名为蛋白质语言模型的生成式人工智能工具--一种在数百万个蛋白质序列上训练出来的神经网络--来设计CRISPR基因编辑蛋白质的详细情况,然后能够证明这些系统中的一些在实验室中按预期工作。
今年2月,另一个研究小组宣布,他们开发出了一个在微生物基因组上训练的模型,并利用它设计出了新的CRISPR系统,该系统由DNA或RNA切割酶和RNA分子组成,RNA分子指导分子剪刀向何处切割。
生物技术公司Profluent首席执行官Ali Madani说:"这真的只是从表面入手。这表明,利用机器学习模型设计这些复杂的系统是可能的。"Madani团队于4月22日在bioRxiv.org上发表了一篇预印本文章,报告了他们所说的 "完全由机器学习设计的蛋白质首次成功编辑人类基因组"。
香港大学合成生物学家Alan Wong的团队利用机器学习优化了CRISPR。他说:对于某些应用来说,找到合适的CRISPR是一项挑战。利用人工智能扩大编辑器的范围可能会有所帮助。"
基因组训练
ChatGPT等聊天机器人是在现有文本基础上经过训练后设计出来处理语言的,而CRISPR设计人工智能则是在大量蛋白质或基因组序列形式的生物数据基础上训练出来的。这一"预训练"步骤的目的是让模型深入了解自然发生的基因序列,例如哪些氨基酸往往会组合在一起。然后,这些信息就可以应用到创建全新序列等任务中。
Madani的团队曾利用自己开发的名为ProGen的蛋白质语言模型,提出了新的抗菌蛋白质。为了设计出新的CRISPR,研究小组利用数百万个不同的CRISPR系统实例对更新版的ProGen进行了再训练,细菌和其他被称为古细菌的单细胞微生物利用这些CRISPR系统抵御病毒。
由于CRISPR基因编辑系统不仅包括蛋白质,还包括指定目标的RNA分子,因此Madani的团队开发了另一个人工智能模型来设计这些"引导RNA"。
然后,研究小组利用神经网络设计了数百万个新的CRISPR蛋白序列,这些序列属于自然界中数十个不同的此类蛋白家族。为了验证人工智能设计的CRISPR是否是真正的基因编辑器,Madani的团队合成了与200多种蛋白质设计相对应的DNA序列,这些蛋白质设计属于目前在实验室中广泛使用的CRISPR-Cas9系统。当研究人员将这些序列--Cas9蛋白和"引导RNA"的指令--插入人类细胞时,许多基因编辑器都能精确地切割基因组中的目标。
最有希望的Cas9蛋白--一种他们命名为OpenCRISPR-1的分子--在切割目标DNA序列方面的效率与广泛使用的细菌CRISPR-Cas9酶一样高,而且它在错误位置上的切割次数要少得多。研究人员还利用OpenCRISPR-1的设计创建了一个碱基编辑器--一种能改变单个DNA"字母"的精确基因编辑工具--并发现它也和其他碱基编辑系统一样高效,而且不容易出错。
另一个研究小组使用了一种能够生成蛋白质和RNA序列的人工智能模型。这个名为EVO的模型是在8万个来自细菌和古细菌的基因组以及其他微生物序列(总计3000亿个DNA字母)上训练出来的。该团队尚未在实验室测试其设计。但他们设计的一些CRISPR-Cas9系统的预测结构与天然蛋白质的结构相似。
精准医疗
西班牙巴塞罗那分子生物学研究所的计算生物学家Noelia Ferruz Capapey说:"这太神奇了。与一些获得专利的基因编辑工具不同,研究人员可以不受限制地使用OpenCRISPR-1分子,这给她留下了深刻印象。用于微调的ProGen2模型和CRISPR序列"图集"也是免费提供的。"
Madani说,希望人工智能设计的基因编辑工具能比现有的CRISPR更适合医疗应用。他补充说,Profluent希望与正在开发基因编辑疗法的公司合作,测试人工智能生成的CRISPRs。他说,"这确实需要精确度和定制设计,而我认为这不是从天然CRISPR系统中复制粘贴就能做到的。"
参考资料:
https://www.nature.com/articles/d41586-024-01243-w