
DRUGONE
基于DNA序列预测基因表达的 sequence-to-function 模型,已经成为解析顺式调控机制与非编码变异的重要工具。然而,目前主流模型主要依赖健康组织或细胞系的 bulk RNA 数据进行训练,缺乏对单细胞尺度下细胞类型与疾病状态特异性表达模式的学习能力,因此无法在真正的细胞状态分辨率上解析调控机制。研究人员提出了 Decima,一个能够直接从基因周围DNA序列预测细胞类型与疾病状态特异性表达的深度学习模型。
Decima 基于超过2200万个单细胞或单核RNA测序数据进行训练,能够准确预测未见基因在不同细胞类型中的表达模式。研究人员进一步证明,该模型不仅能够揭示驱动细胞类型特异性表达的顺式调控机制,还可以解析疾病相关表达变化、预测非编码变异在不同细胞中的功能影响,并用于设计具有状态偏向性的调控DNA元件。

近年来,sequence-to-function 深度学习模型已经被广泛用于从基因组DNA序列预测基因表达、染色质开放性以及表观遗传特征。这些模型对于解析顺式调控语法、研究非编码变异具有重要意义。随着模型开始引入数十万碱基长度的基因组上下文信息,其预测能力不断增强。
然而,目前绝大多数模型仍主要基于 bulk RNA-seq 或 CAGE-seq 数据进行训练。这意味着它们学习到的是组织整体平均表达,而无法区分不同细胞类型之间的调控差异。此外,由于训练数据主要来自健康样本,这些模型也难以直接学习疾病状态下发生的异常表达变化。
与此同时,单细胞RNA测序数据正在快速积累,其中蕴含了丰富的细胞状态与疾病相关调控信息。但现有方法往往依赖 scATAC-seq、已知转录因子靶基因关系或共表达分析,难以完全利用基因组序列本身蕴含的调控信息。
因此,研究人员提出需要一种新的 sequence model,不仅能够在单细胞分辨率下学习基因表达调控规律,还能够直接从DNA序列中解析细胞类型、组织状态以及疾病相关的调控机制。
方法
研究人员构建了 Decima,一个基于 pseudobulk 单细胞表达矩阵训练的 sequence-to-expression 模型。研究人员首先整合多个大型单细胞与单核RNA测序图谱,包括 SCimilarity、人脑图谱、皮肤图谱与视网膜图谱等数据集,总计超过2200万个细胞。随后,将相同“细胞类型+组织+疾病+研究来源”的细胞聚合为 pseudobulk 表达向量,共得到8856个 pseudobulk 样本和18457个基因。
对于每个基因,Decima 输入长度为524,288 bp的基因组序列窗口,覆盖基因上下游区域,并同时输入基因区域mask。模型基于 Borzoi foundation model 初始化,并进一步训练用于预测每个 pseudobulk 中的 log(CPM+1) 表达值。研究人员还设计了新的损失函数,使模型重点学习不同细胞状态之间的表达差异。
结果
Decima 能够从DNA序列预测细胞类型特异性表达
研究人员首先评估了 Decima 对未见基因表达模式的预测能力。在1811个测试集基因上,Decima 对每个 pseudobulk 的预测 Pearson 相关系数平均达到0.80,而对每个基因跨细胞状态表达模式的预测相关性达到0.58。
研究人员进一步展示了多个经典细胞类型特异性基因的预测结果。例如,FABP1 在肠上皮细胞与肝细胞中高表达;DNAH6 在纤毛相关细胞中高表达;SPI1 则主要在髓系细胞中表达。Decima 均能够准确恢复这些表达模式。
此外,随机初始化模型或冻结 Borzoi 参数后,性能明显下降,说明 Decima 不仅依赖 foundation model 迁移学习,还真正学习到了新的调控规律。

图1:Decima 模型结构与跨细胞类型基因表达预测结果。
Decima 学会了细胞类型特异性的顺式调控规则
研究人员进一步分析模型 attribution,探索 Decima 是否真正学习到了调控元件。结果显示,模型 attribution 在 promoter、exon-intron junction 和 enhancer 区域显著增强,而普通 intron attribution 较低。
在 FABP1 基因附近区域,Decima 的 attribution 不仅覆盖 promoter,还准确定位到距离转录起始位点超过50 kb的 distal enhancer。研究人员发现,这些高 attribution 区域中富集了 C/EBP、CDX 和 RXR motif。更重要的是,CDX motif 仅在肠上皮细胞中具有高 attribution,而在肝细胞中明显减弱,与 CDX2 本身仅在肠细胞表达一致。
这说明 Decima 不仅能够识别 enhancer,还能够解析不同细胞类型中的调控逻辑差异。

图2:Decima attribution 对 enhancer 与转录因子 motif 的识别。
模型揭示决定细胞身份的核心转录因子
研究人员随后尝试利用 Decima attribution 系统解析细胞身份决定因子。研究人员首先计算不同细胞类型之间的 differential expression attribution,再通过 TF-MoDISco 聚类得到关键 motif。
在肺上皮细胞分析中,模型成功恢复多个经典 lineage-determining TF。例如:
在神经系统中,研究人员发现 MYT1L motif 对神经元具有强负调控 attribution,而 REST motif 则在非神经细胞中发挥抑制神经元基因表达的作用。这与已知神经谱系调控机制高度一致。
研究人员进一步分析了细胞状态差异。例如,在 cycling Treg 与 resting Treg 比较中,E2F motif 被识别为核心驱动因子;而在心脏成纤维细胞中,则富集 GATA4/GATA6 与 TEAD motif。

图3:Decima 揭示细胞身份、细胞状态与组织驻留相关 motif。
Decima 能在单细胞分辨率预测非编码变异效应
研究人员进一步测试了 Decima 对单细胞 eQTL 的预测能力。基于 OneK1K 单细胞 eQTL 数据集,研究人员发现 Decima 能够显著区分真实 sc-eQTL 与匹配对照变异,并且在21种细胞类型中的19种均优于 Borzoi。
更重要的是,Decima 不仅能够预测变异是否影响表达,还能够预测作用方向。对于高可信 sc-eQTL,模型预测效应与真实 beta value 的 Pearson 相关达到0.42;对于模型认为具有显著效应的变异,相关性进一步提升至0.58,且87%的方向预测正确。
研究人员还发现,Decima 能够识别变异作用的真正细胞类型。例如,rs2158799 是单核细胞特异性的 JAZF1 eQTL。Decima 正确预测该变异在 monocyte 中效应最强,并进一步指出该变异破坏了一个 C/EBP motif,从而影响单核细胞 enhancer 活性。

图4:Decima 对单细胞 eQTL 的细胞类型特异性预测。
Decima 揭示疾病相关 GWAS 变异的潜在作用机制
研究人员进一步将 Decima 应用于837个高可信 GWAS SNP。结果发现,GWAS 变异整体上比随机对照变异产生更强的表达变化效应。利用 Decima 预测值,研究人员能够以明显优于“TSS距离”基线方法的性能识别疾病相关变异。
更重要的是,Decima 可以推断疾病变异作用的细胞类型:
研究人员进一步分析多个具体案例。例如,高血压相关 rs138682554 变异被预测在 macrophage 与 monocyte 中作用最强,并可能通过创建 SPI1 motif 增强 FES 基因表达。

图5:Decima 对 GWAS 非编码变异的细胞类型特异性解析。
Decima 支持疾病状态特异性调控元件设计
研究人员最后展示了 Decima 在 regulatory DNA design 中的潜力。模型不仅能够预测表达变化,还能够利用 attribution 指导 enhancer motif 优化,从而设计具有特定细胞状态偏向性的调控序列。
研究人员认为,这意味着未来可以基于 sequence-to-expression foundation model,直接设计疾病特异性 enhancer、细胞类型定向表达元件以及精准基因治疗调控模块。

图6:Decima 在疾病状态特异性调控序列设计中的应用示意。
讨论
研究人员提出的 Decima 首次在大规模单细胞尺度上,实现了从DNA序列到细胞类型与疾病状态特异性基因表达的统一预测。与传统 bulk-trained sequence model 不同,Decima 能够直接学习不同细胞类型之间的调控差异,并解析疾病状态下的调控机制。
研究结果表明,模型不仅能够恢复经典 enhancer 与 TF motif,还能够自动发现决定细胞身份、组织驻留以及疾病状态的关键调控逻辑。此外,Decima 在单细胞 eQTL 与 GWAS 非编码变异解析中展现出明显优势,为精准解析复杂疾病遗传机制提供了新的方向。
研究人员认为,这类单细胞 sequence foundation model 有望成为未来“从基因组序列直接推断细胞行为”的核心基础设施,并进一步推动精准医学、基因治疗和合成调控元件设计的发展。
整理 | DrugOne团队
参考资料
Lal, A., Karollus, A., Gunsalus, L. et al. Decoding sequence determinants of gene expression in diverse cellular and disease states. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03102-0