
DRUGONE
单细胞组学数据的快速增长带来了前所未有的重用机会,但数据传输、标准化与整合仍是分析的主要障碍。研究人员提出了 scvi-hub:一个基于预训练概率模型的平台,用于高效共享和访问单细胞组学数据。通过该平台,用户可以在极大降低存储与计算需求的情况下,直接在新数据上执行可视化、插补、注释和去卷积等基础分析任务。研究人员展示了该方法在大规模参考集(如 CZI CELLxGENE Discover Census)上的高效性。Scvi-hub 构建于 scvi-tools 开源环境之上,并整合至 scverse 生态系统,提供可扩展、用户友好的框架,推动越来越多的现成模型与数据集的共享,使得图谱级别的分析更易于普遍研究者使用。

随着单细胞组学技术的发展,大规模数据集逐渐成为探索细胞状态和疾病机制的重要资源。机器学习模型能够完成降维、差异表达比较、自动注释、去噪、空间数据去卷积以及模态插补等多种任务。未来,迁移学习将在利用这些大型参考集时发挥关键作用,从而更高效地实现投影、注释与推断。然而,目前迁移学习的应用主要集中于低维表示,尚缺乏对空间数据解释、多模态预测或异常亚群检测的普遍推广。
现有方法大致分为非参数和参数两类。非参数方法直接依赖参考数据去除变异,而参数方法则通过模型学习潜在表示,并在新数据上快速投影。这类方法能够在保持参考信息的同时,极大地降低对原始数据存储的需求。然而,模型重用依旧存在障碍,包括训练环境不统一、缺乏标准化的共享机制,以及难以评估模型质量。
结果
模型的重用与评估
Scvi-hub 为模型贡献者提供了评估与共享功能。通过 后验预测检查 (PPC),研究人员可验证模型生成数据与真实数据在差异表达、基因方差等指标上的一致性。以人类肺细胞图谱为例,scANVI 模型能够恢复出未被原始数据集标注的调节性 T 细胞,展示了模型生成数据在细粒度注释中的潜力。
此外,scvi-hub 借助 Hugging Face Model Hub 进行统一管理与版本控制,使模型上传、发现和复现更为便捷。

参考数据集的探索与再分析
研究人员展示了利用 scvi-hub 在参考数据集上进行探索性分析的能力。用户可通过低维潜在表示进行聚类、可视化与轨迹推断,也可通过生成的计数矩阵在高维空间进行差异分析。数据的“压缩化”(minification)大幅减少了下载和内存需求,使得传统硬件即可完成大规模图谱的再分析。

基于参考的查询数据分析
Scvi-hub 提供了高效的迁移学习工作流,用于处理查询数据。通过将查询数据投影到参考模型的潜在空间,研究人员可快速进行可视化、细胞类型注释、差异分析与空间去卷积。例如,在肺气肿数据集上,scvi-hub 揭示了病人特定成纤维细胞亚群上调炎性趋化因子的新机制,补充了原始研究的发现。

标签注入
研究人员提出了一种新的应用场景:通过联合嵌入将高分辨率的小规模数据集标签注入到参考图谱中,以提升注释精度。以 HLCA 中 NK/T 细胞为例,研究人员通过外部免疫数据集完成了细胞亚群的重新标注,并进一步发现了与 COVID-19 相关的 CD8+ 记忆 T 细胞耗竭特征。
扩展至图谱级数据
研究人员展示了 scvi-hub 在 CELLxGENE Census(覆盖 3000 万以上人类细胞)的应用。通过下载其压缩版模型,用户可以在数十分钟内完成对大规模图谱的利用。例如,在 CAR-T 细胞治疗数据中,研究人员利用 scvi-hub 揭示了终末分化 CD8+ T 细胞和调节性 T 细胞与疗效不佳相关,且某些细胞亚群与细胞因子释放综合征呈负相关。这些发现显示了图谱级模型在临床研究中的潜在价值。

讨论
Scvi-hub 解决了单细胞领域在模型重用方面的两大挑战:
研究人员强调,scvi-hub 面向三类主要用户:
其核心优势在于:
未来,研究人员希望 scvi-hub 成为单细胞领域的核心资源,推动一种以模型为中心的数据分析范式,使模型能够更高效地被发现、获取、共享与再利用,进而加速疾病机制的理解和转化研究的开展。
整理 | DrugOne团队
参考资料
Ergen, C., Pour Amiri, V.V., Kim, M. et al. Scvi-hub: an actionable repository for model-driven single-cell analysis. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02799-9
内容为【DrugOne】公众号原创|转载请注明来源