
DRUGONE
随着单细胞转录组数据规模的快速增长,基于大规模预训练的基础模型正在成为网络生物学的重要工具。然而,模型规模的提升也带来了计算资源消耗的显著增加,限制了其在实际研究中的应用。
本研究构建了一个包含约1.04亿个人类单细胞转录组的数据集,并在此基础上训练不同规模的Geneformer模型,系统研究了模型扩展规律。同时,研究人员引入模型量化技术,在显著降低计算成本的同时保持预测性能。结果表明,模型性能随着参数规模呈幂律提升,而4-bit量化模型在推理与微调中仅需原始模型约15%的时间和34%的内存,却能够维持几乎相同的预测能力。这一策略为资源受限环境中的生物学基础模型应用提供了可行路径。

基因调控网络的解析对于理解发育过程与疾病机制至关重要。然而,传统方法依赖大量任务特定数据,难以在数据稀缺场景中发挥作用。
近年来,随着单细胞测序技术的发展,大规模转录组数据不断积累,为基础模型提供了训练基础。通过迁移学习,这类模型可以在缺乏任务特定数据的情况下完成多种预测任务。
尽管如此,随着模型规模和数据规模的增长,计算成本急剧上升,限制了其在普通实验室中的可及性。因此,如何在保持性能的同时降低计算资源消耗,成为当前的重要问题。
方法
研究人员首先构建了Genecorpus-104M数据集,涵盖多组织、多疾病状态的单细胞转录组数据,并采用基于表达排序的编码方式表示基因表达谱。该表示方法能够降低技术噪声对模型的影响,同时突出具有调控意义的基因。
在模型层面,研究人员训练了不同参数规模的Geneformer模型,分析其扩展规律。随后,引入基于QLoRA的4-bit量化策略,在冻结主模型参数的同时,通过低秩适配器进行微调,从而显著降低内存与计算开销。
通过在多种基因级与细胞级任务上的评估,系统比较了不同规模模型以及量化模型的性能与效率。
结果
模型扩展规律与预训练性能
研究表明,随着模型参数增加,预训练损失呈现幂律下降趋势,即模型越大,其学习效率越高。在相同计算预算下,大模型能够更快收敛,并在未见数据上表现出更低的误差。
此外,更大规模且更加多样化的数据集显著提升了模型性能,说明数据多样性对于基础模型训练同样关键。

图1:Geneformer模型的扩展规律。
基因层面任务性能提升
在多个基因层面的任务中,包括疾病相关基因识别、转录因子靶基因预测以及染色质状态推断等,模型性能随着规模提升而持续增强。
尤其是最大规模模型,在零样本学习条件下即可超过传统方法甚至优于部分微调模型,显示出强大的泛化能力。这一能力对于缺乏标注数据的场景尤为重要。

图2:模型规模扩展与量化对基因层面任务的影响。
零样本与少样本学习能力
研究结果显示,中等规模模型在少样本学习下已可超越传统方法,而最大模型在零样本条件下即可实现高性能预测。这说明模型规模的提升显著增强了知识迁移能力。
模型量化实现高效计算
在引入4-bit量化后,模型在保持预测性能基本不变的情况下,计算效率大幅提升。具体而言,微调时间减少至原来的约15%,内存使用降低至约34%。
尽管精度降低,但量化模型在多个任务中的表现与全精度模型无显著差异,说明模型内部的生物学知识得到了良好保留。

图3:模型规模扩展与量化对细胞层面任务的影响。
量化对性能与资源的影响
实验表明,量化模型在不同任务上的表现与原模型高度一致,同时显著降低了计算成本,使得大模型在资源受限环境中也具备可用性。
细胞层面任务与嵌入空间分析
在细胞分类任务中,模型能够根据细胞类型、组织来源及疾病状态进行准确区分。随着模型规模增加,其嵌入空间对不同生物学状态的区分能力不断增强。
进一步分析表明,量化模型在嵌入空间结构上与全精度模型高度一致,说明其仍能保持生物学语义信息。

图4:量化对上下文嵌入空间及体内模拟扰动分析的影响。
嵌入空间与生物学一致性
无论在基因嵌入还是细胞嵌入层面,量化模型与原模型的相似度极高,并能够准确反映基因调控关系及细胞状态变化。
讨论
本研究系统揭示了网络生物学基础模型的两个关键规律:一是模型性能随规模扩展呈现幂律增长,二是量化技术可以在几乎不损失性能的情况下显著降低计算成本。
这一发现对于生物医学研究具有重要意义。随着数据规模持续扩大,更大模型将能够实现更强的零样本预测能力,从而在稀缺数据场景(如罕见疾病研究)中发挥关键作用。
同时,量化技术的引入使得这些模型不再局限于高性能计算环境,而能够在更广泛的研究条件下使用,从而推动基础模型在生物学领域的普及。
未来研究可进一步探索多模态基础模型,将基因组、表观组、蛋白组等多层信息整合,以实现更全面的生物系统建模。同时,持续学习与领域适配策略也将有助于提升模型在特定生物问题中的表现。
总体而言,该研究为构建“高性能且可普及”的生物学基础模型提供了重要范式,标志着AI在网络生物学中的应用迈入规模化与高效化并行发展的新阶段。
整理 | DrugOne团队
参考资料
Chen, H., Venkatesh, M.S., Gόmez Ortega, J. et al. Scaling and quantization of large-scale foundation model enables resource-efficient predictions in network biology. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-026-00972-4

内容为【DrugOne】公众号原创|转载请注明来源