近期,Arc Institute 与NVIDIA、斯坦福大学等合作推出了震撼的Evo 2——迄今为止规模最大的生物基因组大模型( 从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型 )。相隔不久,Arc Institute推出Arc Virtual Cell Atlas,并以此为基础发布了scBaseCamp,一个智能体驱动的单细胞RNA测序数据仓库。当中,Vevo AI贡献了开源数据集Tahoe-100M,进一步丰富了这一资源平台。
单细胞RNA测序技术能够捕获单个细胞的转录组信息,为研究细胞在生物过程中的动态变化提供了高分辨率数据。然而,数据的快速积累也带来了整合与分析的难题。现有数据库,如Human Cell Atlas和CZ CELLxGENE,尽管提供了大量单细胞数据集,但这些数据通常由不同实验室手动整理,处理流程(如比对工具、基因计数策略和参考基因组版本)的不一致性引入了技术偏差,限制了数据的可比性和下游分析的可靠性。
在此背景下,scBaseCamp作为一个AI驱动的单细胞数据仓库应运而生。SRA中挖掘公开的10X Genomics数据,并进行标准化处理,旨在提供统一的、高质量的单细胞数据资源。同时,Arc Virtual Cell Atlas整合了包括Tahoe-100M在内的多种数据集,目标是通过计算就绪的数据支持虚拟细胞模型的构建和生物医学研究。
截至目前,scBaseCamp已整合超过2.3亿个细胞的数据,覆盖21个物种和72种组织类型,成为迄今为止最大的公共单细胞数据资源库。与此同时,Tahoe-100M数据集包含1亿个细胞,记录了60,000种药物-细胞相互作用,是目前规模最大的单细胞数据集之一。两者结合,Arc Virtual Cell Atlas的总数据量超过3亿个细胞,显著超越了现有数据库的规模。
通过UMAP等可视化技术,scBaseCamp展示了其数据在物种和组织分布上的广泛性。这种多样性不仅为研究不同生物系统提供了基础,还为药物研发和细胞功能研究开辟了新的可能性。
scBaseCamp的核心技术之一是SRAgent,一个基于大语言模型的AI工具。SRAgent能够自动查询SRA数据库,识别10X Genomics单细胞RNA测序数据集,并提取关键元数据(如物种、组织类型和疾病状态)。其分层工作流程利用NCBI的工具(如eSearch和eFetch),确保元数据的准确性和一致性。与传统依赖人工整理的方法相比,SRAgent显著提高了数据发现的效率,并支持数据库的持续扩展。
为减少技术偏差,scBaseCamp采用了scRecounter,一个基于Nextflow的数据处理管道。该管道能够自动识别10X Genomics数据的化学版本,使用STARsolo进行序列比对和基因计数,并生成标准化的基因表达矩阵。scRecounter还支持多种计数策略,包括外显子、内含子以及RNA速度分析所需的剪接和未剪接转录本计数。这种灵活性满足了不同研究需求,同时确保了数据的一致性。
标准化处理是scBaseCamp区别于其他数据库的关键特征。通过轮廓系数(silhouette score)等分析方法,研究表明,scBaseCamp中的数据聚类更多受到生物学因素(如组织类型)的影响,而技术因素(如样本制备方法或文库化学版本)的干扰较小。与之相比,CZ CELLxGENE数据库中的技术偏差更为显著,表明其数据整合性较低。此外,scBaseCamp通过统一处理外显子和内含子计数,减少了批次效应,进一步提高了数据的可比性。
这种优势在下游分析中尤为重要。例如,标准化的基因表达矩阵为AI驱动的细胞建模提供了高质量输入,而多样化的基因注释策略则支持RNA速度分析等复杂应用。
Arc Virtual Cell Atlas作为一个更广泛的平台,整合了scBaseCamp和Tahoe-100M等多种数据资源。Tahoe-100M的开源为研究人员提供了探索药物-细胞相互作用的丰富素材,而scBaseCamp则通过其多样化的生物学数据补充了这一资源。两者的结合为构建虚拟细胞模型、研究疾病机制和开发新疗法提供了强大的数据基础。
尽管scBaseCamp和Arc Virtual Cell Atlas取得了显著进展,其发展仍面临若干挑战。首先,SRAgent虽然实现了元数据的自动化提取,但某些细胞类型的注释仍需人工干预或社区协作。其次,目前scBaseCamp主要支持10X Genomics数据,未来需扩展至其他测序平台以增强兼容性。此外,随着单细胞多组学、空间转录组学等技术的发展,这些工具需要不断更新处理流程以适应新兴数据类型。
未来,研究团队计划将scBaseCamp的数据范围扩展到更多单细胞基因组学技术,并整合其他公共数据源,以进一步提升其学术价值。
scBaseCamp和Arc Virtual Cell Atlas的推出标志着单细胞数据整合迈入了新阶段。通过AI驱动的数据挖掘和标准化处理,这两个工具显著提高了数据的规模、质量和一致性,为计算生物学和生物医学研究提供了重要支持。无论是基础生物学研究还是应用开发,这些资源都将成为研究人员不可或缺的工具。
随着技术兼容性和数据范围的不断扩展,scBaseCamp和Arc Virtual Cell Atlas有望在未来推动更多科学突破,为理解细胞行为和促进人类健康作出更大贡献。
文献
https://arcinstitute.org/manuscripts/scBaseCamp
数据
STARsolo count matrices:可从Google Cloud Storage(gs://arc-ctc-scbasecamp/2025-02-25)获取
文档:https://github.com/ArcInstitute/arc-virtual-cell-atlas
代码
https://github.com/ArcInstitute/SRAgent
https://github.com/ArcInstitute/scRecounter
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。