单细胞和空间转录组学技术为解析细胞异质性提供了重要工具,但细胞类型注释作为其核心分析步骤,传统上依赖人工比对基因标记和参考数据,过程耗时且对领域知识要求较高。
近期,一项标题为《Reference-free cell-type annotation with LLM agents》(ICLR 2025)的研究提出了一种基于大型语言模型(LLM)智能体的无参考注释方法。该方法通过高层次目标指令驱动LLM自主规划分析流程、执行代码并输出结果,无需依赖预设参考数据库。实验表明,Claude 3.5 Sonnet和o3-mini在准确性和稳定性上接近专家水平,而GPT-4o因标签粒度较粗及幻觉问题表现较弱。
单细胞RNA测序(scRNA-seq)和空间转录组学技术能够捕捉组织中单个细胞的基因表达谱,从而揭示细胞异质性。然而,确定每个细胞簇的生物学身份(即细胞类型)仍是一项挑战。
传统方法依赖以下步骤:首先基于转录相似性(如使用Seurat或Scanpy进行聚类),然后通过人工筛选差异表达基因(DEG),比对文献或数据库中的已知标记基因,最终为每个簇分配细胞类型。这一流程存在显著局限性:
近年来,大型语言模型因其自然语言理解、代码生成及工具调用能力受到关注。研究者提出,配备自主规划能力的LLM智能体可能通过端到端自动化分析,克服传统方法的瓶颈,为单细胞转录组学研究提供新范式。
该研究开发了一种通用型生物信息学智能体,其核心在于通过高层目标驱动实现无参考细胞类型注释。
具体架构包括:
get_pubmed_abstracts
)和NCBI Entrez EUtils API(esearch
、efetch
、esummary
),用于查询基因与细胞类型的关联。实验使用10x Genomics Visium HD数据集,包括小鼠肾脏、大脑及人类扁桃体样本。每个数据集包含基于k-means聚类(k=10)的表达数据,智能体需根据基因表达特征推断细胞类型。金标准由病理学家提供,用于评估结果。
实验通过完成率、幻觉率及与金标准的对齐分数(1-4分)评估智能体表现,结果如下:
以Claude 3.5 Sonnet为例,其分析流程如下:
clustered.csv
),提取差异基因(如Slc12a1、Umod)。智能体偶现幻觉,主要表现为:
尽管LLM智能体展现出自动化潜力,仍面临以下挑战:
未来可探索多代理协作框架,分担质量控制、注释和可视化任务,进一步提高效率和精度。
该研究表明,LLM智能体能够在仅依赖高层指令的情况下,自主完成单细胞转录组的细胞类型注释,展现出与人类专家相近的推理能力。其任务无关设计意味着潜在的广泛适用性,可能扩展至其他基因组学任务。研究者可关注以下方向:
尽管当前方法在稳定性和精度上需进一步优化,其“目标驱动”理念已为生物信息学自动化开辟了新路径。若能妥善应对幻觉和伦理风险(如错误信息传播),LLM智能体有望加速科学发现,成为生物医学研究的重要助手。
Huang, Y., Cohen, I., Truong, V.Q.T., Bayat, P.B., Bhatti, S.A., Paruzzo, L., Painter, M.M., Zheng, S., Oldridge, D.A., Wagenaar, J. and Greenplate, A.R., Reference-free cell-type annotation with LLM agents. In ICLR 2025 Workshop on Machine Learning for Genomics Explorations.
本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。