
DRUGONE
酶工程和生物催化的发展高度依赖于能够快速找到具有目标反应活性的酶,但在庞大的蛋白序列空间中定位合适的候选酶仍然是主要瓶颈。研究人员提出了一种基于双编码器对比学习的深度学习模型 Horizyn-1,用于直接从化学反应预测可能催化该反应的酶序列。该模型通过同时编码反应和蛋白序列,并在共享嵌入空间中进行匹配,实现了大规模反应-酶关联学习。在数百万反应-酶配对数据上训练后,模型能够在超过75%的测试反应中,将正确酶排在前100个候选之内。研究人员通过多种实验验证,包括孤立反应酶发现、酶多功能性预测以及非天然反应催化酶筛选,证明该方法能够显著加速酶发现过程,并为生物催化和代谢工程提供可扩展的计算筛选策略。

设计或发现能够催化特定化学反应的酶是现代生物技术的重要基础。然而,尽管基因组测序已经产生了海量蛋白序列,其中许多酶的功能仍然未知。传统的功能预测方法主要依赖序列相似性或注释数据库,这些方法难以识别具有新反应活性的酶。
近年来,深度学习在蛋白质功能预测方面取得显著进展,尤其是蛋白语言模型能够从大规模序列数据中学习序列特征。但这些方法通常只能预测功能类别,而不能直接回答“哪种酶可以催化某个具体反应”。
为了实现反应到酶的直接匹配,需要同时理解化学反应和蛋白序列,并建立两者之间的对应关系。对比学习在图像和文本匹配等任务中已被证明有效,因此研究人员将双编码器对比学习框架引入酶发现问题,使模型能够在统一空间中表示反应和蛋白,从而实现高效检索。
方法
研究人员构建了一个包含数百万反应-酶配对的数据集,并将每个反应表示为化学指纹特征,同时使用蛋白语言模型对酶序列进行编码。模型由两个独立编码器组成,一个用于反应,一个用于蛋白序列,两者的输出被投影到同一嵌入空间。
训练过程中,已知的反应-酶配对被视为正样本,而不匹配的组合被视为负样本。模型通过最小化正样本之间的距离并增大负样本之间的距离,使正确配对在嵌入空间中更加接近。训练完成后,可以根据相似度快速从数百万酶中筛选最可能催化某个反应的候选酶。

图1: Horizyn-1模型架构、应用场景与性能评估。
结果
反应-酶联合嵌入实现大规模注释
研究人员首先评估模型在已知反应上的预测能力。结果表明,Horizyn-1 能够准确检索到正确的酶,并显著优于传统基于序列相似性或反应指纹的方法。
随着训练数据规模增加,模型性能持续提升,并呈现对数式增长趋势,说明扩大反应数据多样性能够进一步提高酶发现能力。
孤立反应的酶发现
许多已知生化反应缺少已鉴定的酶,被称为孤立反应。研究人员利用 Horizyn-1 对这些反应进行筛选,从数百万酶序列中选出高分候选,并进行实验验证。
实验结果显示,模型能够成功找到具有预期活性的酶,证明该方法可以用于真实的酶发现任务,而不仅仅是数据库预测。

图2:孤立反应的酶发现及未注释酶的多功能活性鉴定。
酶多功能性预测
酶常常具有底物多样性或催化多种反应。研究人员测试模型是否能够预测酶的潜在多功能性。结果表明,Horizyn-1 不仅能识别已知反应,还能预测新的底物或反应类型,说明模型学习到了更深层的催化规律,而不仅仅是简单的序列相似性。

图3: 用于非天然氨基酸合成的转氨酶发现及反应机制验证。
非天然反应酶的发现
为了测试模型在新反应类型上的能力,研究人员选择了一类非天然转氨反应,并在约700万酶序列中进行筛选。模型推荐的一组候选酶经过表达和活性测定后,发现其中多个具有明显催化活性。
进一步的同位素标记实验表明,模型不仅能够预测是否具有活性,还能预测反应机理细节,例如氨基转移的位置来源。

图4: 微调训练提升模型在新反应类别上的预测性能。
讨论
研究结果表明,双编码器对比学习能够在统一嵌入空间中建立化学反应与酶序列之间的直接联系,从而实现高效的酶发现。与传统方法相比,该策略无需依赖序列相似性或人工注释,而是通过学习大量反应-酶关系获得更通用的表示。
实验验证表明,该模型不仅能够识别已知酶,还能够发现催化新反应的酶,并可通过少量新数据进行快速微调,从而适应新的化学反应类别。这种可扩展性对于生物催化和代谢工程具有重要意义。
研究人员指出,模型性能与数据规模密切相关,因此未来的发展方向包括构建更大规模的反应数据库,并结合主动学习策略优先获取具有代表性的反应数据。随着数据不断增加,这种基于对比学习的框架有望成为酶发现和酶工程的核心工具,加速新型生物催化剂的开发。
整理 | DrugOne团队
参考资料
J.W. Rocks,D.P. Truong,D. Rappoport,S. Maddrell-Mander,D.A. Martin-Alarcon,T.M. Lee,S. Crossan, & J.E. Goldford, Dual-encoder contrastive learning accelerates enzyme discovery, Proc. Natl. Acad. Sci. U.S.A. 123 (12) e2520070123,
https://doi.org/10.1073/pnas.2520070123 (2026).

内容为【DrugOne】公众号原创|转载请注明来源