在生物信息学领域,随着生物数据的爆炸性增长,分析流程的复杂性也在不断增加。传统的生物信息学工具和流程往往依赖于大量的手动操作,这不仅效率低下,而且难以扩展。近年来,基于大型语言模型(LLM)的智能代理技术为自动化生物信息学分析带来了新的希望。然而,现有的自动化系统在处理复杂、多步骤的工作流程时仍面临诸多挑战,例如错误传播、对新工具的适应性有限以及在特定生物信息学任务中的泛化能力不足等问题。
为了解决这些挑战,香港科技大学(广州)数据科学与分析学域的 Houcheng Su、Weicai Long 和 Yanlin Zhang 等人提出了一种名为 BioMaster 的多智能代理系统,旨在自动化和简化复杂的生物信息学工作流程。BioMaster 通过角色分工的智能代理,实现了任务的精确分解、执行和验证,并利用检索增强生成(RAG)技术动态检索领域特定的知识,提高了对新工具和特定分析的适应性。此外,BioMaster 还引入了增强的输入输出验证控制,确保了流程的一致性,并采用了优化的内存管理策略,以处理长工作流程。
BioMaster 的整体框架包括四个主要的智能代理:计划代理(Plan Agent)、任务代理(Task Agent)、调试代理(Debug Agent)和检查代理(Check Agent)。用户只需提供分析目标和必要的输入文件,BioMaster 即可自主处理整个工作流程。
BioMaster 在多个方面展现了其独特的优势:
在对 BioMaster 的实验评估中,研究者们选择了多种生物信息学任务,包括 RNA-seq、ChIP-seq、单细胞分析和 Hi-C 数据处理等。实验结果表明,BioMaster 在准确性、效率和可扩展性方面显著优于现有方法。
例如,在 Hi-C 数据分析中,BioMaster 成功地完成了从数据比对、配对解析到最终接触矩阵创建的整个流程。而其他方法,如 AutoBA 和 ChatGPT,在处理复杂步骤时出现了错误,如文件合并失败和参数文件格式错误等。BioMaster 的检查代理通过在每个步骤后验证输出,防止了错误的传播,确保了任务的完成。
此外,研究者们还进行了消融实验,以评估 BioMaster 中关键组件(如计划 RAG、工具 RAG 和检查代理)的贡献。结果表明,这些组件对于 BioMaster 的性能至关重要。例如,缺少计划 RAG 会导致系统无法生成有效和详细的工作计划,而缺少检查代理则会对长工作流程的成功率产生严重影响。
BioMaster 的出现为生物信息学自动化分析提供了一个强大的解决方案。它通过多智能代理架构和动态知识检索技术,有效地解决了现有自动化系统在处理复杂工作流程时的局限性。BioMaster 的实验结果证明了其在多种生物信息学任务中的优越性能,特别是在处理长工作流程和特定领域任务时的表现尤为突出。
文献: Su, Houcheng, Weicai Long, and Yanlin Zhang. "BioMaster: Multi-agent System for Automated Bioinformatics Analysis Workflow." bioRxiv (2025): 2025-01.
代码: https://github.com/ai4nucleome/BioMaster