
DRUGONE
阐明基因组中核苷酸如何编码调控指令与分子机器,是生命科学中的核心目标。基因组语言模型(genomic language models, gLMs)能够仅从序列上下文中捕捉功能元件及其组织结构。然而,由于缺乏可解释的分析方法,从这些模型中直接识别功能基因组元件仍具挑战性。研究人员提出一种新的“核苷酸依赖性”分析方法,用于量化某一位点的碱基替换对其他位点碱基概率的影响。依赖性分析不仅优于基于序列比对的保守性方法和重建评分,在识别遗传变异致病性方面表现更佳,还能准确揭示RNA结构中的互补配对关系(包括假结与三级结构接触),并由此发现了新的实验验证结构。研究人员进一步利用依赖性图揭示了若干gLM架构与训练策略的关键局限性。整体而言,核苷酸依赖性分析为探索和研究基因组中的功能元件及其相互作用开辟了新途径。

基因组是所有生物体的遗传蓝图。尽管高通量测序技术使研究人员能够读取完整的遗传信息,但其生物学意义的解析仍然极具挑战。传统上,功能序列的识别依赖于序列比对与核苷酸水平的保守性分析,这种策略通过共变分析揭示碱基配对保守性等结构特征。然而,这类分析受限于比对质量,仅能适用于高度保守的区域。
近年来,基因组语言模型作为一种无比对的替代方法崭露头角。通过学习上下文来预测核苷酸,这些模型能够直接从大量序列中捕捉进化模式,区分功能与非功能区域,并在分子表型预测任务中表现优越。然而,以往研究多将gLM视作“黑箱”基础模型,缺乏揭示其内部所蕴含功能元件的手段。研究人员因此提出以核苷酸依赖性为核心的新框架,用于解析不同位点间的功能联系,并据此评估模型性能与生物学可解释性。
方法概述
研究人员对多个基因组语言模型进行系统分析。首先,模型被训练以重建目标核苷酸的概率分布,然后通过在不同位点进行体外替换模拟(in silico mutagenesis),计算替换对目标位点预测概率的变化(以对数比值表示)。通过在所有可能的查询–目标组合上重复此过程,可得到二维核苷酸依赖性图(dependency map)。依赖性强度反映一个位点对另一个位点的预测影响。研究人员还定义了“变异影响得分”(variant influence score)来衡量特定位点突变对整体序列预测的影响,从而在无监督的情况下评价遗传变异的重要性与潜在致病性。
结果
核苷酸依赖性图揭示功能关系
依赖性得分与实验测得的基因表达变化呈显著相关,性能超越基于保守性或重建概率的方法,并与监督学习模型相当。二维依赖性图在tRNA序列上显示出清晰的反平行结构特征,准确对应其二级结构茎部与三级接触区域,表明gLM能够从重建目标中自发学习RNA配对规则。

图1 | 核苷酸依赖性分析的总体框架与应用示例
对角块结构揭示转录因子结合基序
依赖性图的对角线附近常出现致密的“方块”区域,这些区域与转录因子结合位点(TF motifs)高度一致,而简单重复序列则不具此特征。研究人员定义了“块得分”(block score)来量化6个连续碱基间的依赖强度。结果显示,块得分能有效区分TF结合位点与重复序列,且精度与专家PWM扫描结果相当。部分复合型基序(如Abf1)在依赖性图上呈现多个相互作用块,可揭示二聚结合等复杂模式。

图2 | 依赖性图揭示转录因子结合模式
离对角块反映远程序列互作
在依赖性图中,离对角区域的高值揭示远距离序列元素间的相互作用。例如:
这些结果表明,依赖性图不仅反映序列共现,还揭示功能性剪接与转录调控网络。

图3 | 长程依赖揭示基因组调控网络
依赖性揭示RNA二级与三级结构
研究人员发现依赖性图中的反平行对角线可反映RNA茎区碱基配对关系。利用RiNALMo模型计算的依赖性得分在多个RNA家族中均能准确预测二级结构接触(AUC>0.9)。更重要的是,该方法还能识别:
此外,研究人员通过DMS-MaPseq实验证实了多个先前未注释的非编码RNA结构,显示该方法在无比对、无监督条件下仍具极强的预测能力。

图4 | 依赖性图捕获RNA二级与三级结构
gLM可识别序列重复与倒位复制
依赖性图中的平行与反平行线条揭示了正向与反向重复,表明模型不仅记忆序列,还学习了复制操作本身。gLM不会将任意互补序列误识为配对,而是仅在特定结构背景下显示高依赖性,说明模型捕获了真实结构约束。

图5 | 基因组中序列重复与反向互补依赖性
依赖性与基因组距离的关系
在酵母中,依赖性随距离呈幂律衰减,每增加十倍距离依赖下降约78%。线粒体区域整体依赖性约为核基因组的1.6倍,且在核小体定位周期(约164 bp和152 bp)处出现周期性增强。这些规律揭示了依赖性反映了基因组物理与结构约束。

图6 | 依赖性–距离关系与基因组结构周期性
利用依赖性诊断gLM架构与训练缺陷
依赖性分析还揭示了不同模型架构的局限:
这说明多物种训练对于捕捉稀有但关键的保守元件至关重要。

图7 | 依赖性图用于模型诊断与性能比较
讨论
研究人员提出的核苷酸依赖性为探索基因组功能关系提供了新的度量维度。它能够跨越传统序列比对的限制,揭示调控元件、RNA结构及其互作规则。相比基于重建概率的变异预测指标,依赖性更能反映功能性与潜在致病性。其在RNA结构预测中的应用尤其突出,能够在无监督条件下捕捉二级、三级结构、假结及多构象折叠。
此外,依赖性分析还能作为诊断工具,帮助研究人员比较不同模型的架构与训练策略,从而指导更通用、可解释的基因组语言建模。未来工作可结合进化信息、突变偏倚及多物种数据,进一步提升模型对复杂调控与结构信号的敏感性。
最终,核苷酸依赖性图不仅是一种分析工具,更是一种可视化窗口,让研究人员以全新的方式观察和理解基因组中的选择约束与功能组织。
整理 | DrugOne团队
Tomaz da Silva, P., Karollus, A., Hingerl, J. et al. Nucleotide dependency analysis of genomic language models detects functional elements. Nat Genet 57, 2589–2602 (2025).
https://doi.org/10.1038/s41588-025-02347-3
内容为【DrugOne】公众号原创|转载请注明来源