首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Genet. | 解码基因语言:核苷酸依赖性分析揭示隐藏的功能元件

Nat. Genet. | 解码基因语言:核苷酸依赖性分析揭示隐藏的功能元件

作者头像
DrugAI
发布2026-01-06 13:17:03
发布2026-01-06 13:17:03
1580
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

阐明基因组中核苷酸如何编码调控指令与分子机器,是生命科学中的核心目标。基因组语言模型(genomic language models, gLMs)能够仅从序列上下文中捕捉功能元件及其组织结构。然而,由于缺乏可解释的分析方法,从这些模型中直接识别功能基因组元件仍具挑战性。研究人员提出一种新的“核苷酸依赖性”分析方法,用于量化某一位点的碱基替换对其他位点碱基概率的影响。依赖性分析不仅优于基于序列比对的保守性方法和重建评分,在识别遗传变异致病性方面表现更佳,还能准确揭示RNA结构中的互补配对关系(包括假结与三级结构接触),并由此发现了新的实验验证结构。研究人员进一步利用依赖性图揭示了若干gLM架构与训练策略的关键局限性。整体而言,核苷酸依赖性分析为探索和研究基因组中的功能元件及其相互作用开辟了新途径。

基因组是所有生物体的遗传蓝图。尽管高通量测序技术使研究人员能够读取完整的遗传信息,但其生物学意义的解析仍然极具挑战。传统上,功能序列的识别依赖于序列比对与核苷酸水平的保守性分析,这种策略通过共变分析揭示碱基配对保守性等结构特征。然而,这类分析受限于比对质量,仅能适用于高度保守的区域。

近年来,基因组语言模型作为一种无比对的替代方法崭露头角。通过学习上下文来预测核苷酸,这些模型能够直接从大量序列中捕捉进化模式,区分功能与非功能区域,并在分子表型预测任务中表现优越。然而,以往研究多将gLM视作“黑箱”基础模型,缺乏揭示其内部所蕴含功能元件的手段。研究人员因此提出以核苷酸依赖性为核心的新框架,用于解析不同位点间的功能联系,并据此评估模型性能与生物学可解释性。

方法概述

研究人员对多个基因组语言模型进行系统分析。首先,模型被训练以重建目标核苷酸的概率分布,然后通过在不同位点进行体外替换模拟(in silico mutagenesis),计算替换对目标位点预测概率的变化(以对数比值表示)。通过在所有可能的查询–目标组合上重复此过程,可得到二维核苷酸依赖性图(dependency map)。依赖性强度反映一个位点对另一个位点的预测影响。研究人员还定义了“变异影响得分”(variant influence score)来衡量特定位点突变对整体序列预测的影响,从而在无监督的情况下评价遗传变异的重要性与潜在致病性。

结果

核苷酸依赖性图揭示功能关系

依赖性得分与实验测得的基因表达变化呈显著相关,性能超越基于保守性或重建概率的方法,并与监督学习模型相当。二维依赖性图在tRNA序列上显示出清晰的反平行结构特征,准确对应其二级结构茎部与三级接触区域,表明gLM能够从重建目标中自发学习RNA配对规则。

图1 | 核苷酸依赖性分析的总体框架与应用示例

对角块结构揭示转录因子结合基序

依赖性图的对角线附近常出现致密的“方块”区域,这些区域与转录因子结合位点(TF motifs)高度一致,而简单重复序列则不具此特征。研究人员定义了“块得分”(block score)来量化6个连续碱基间的依赖强度。结果显示,块得分能有效区分TF结合位点与重复序列,且精度与专家PWM扫描结果相当。部分复合型基序(如Abf1)在依赖性图上呈现多个相互作用块,可揭示二聚结合等复杂模式。

图2 | 依赖性图揭示转录因子结合模式

离对角块反映远程序列互作

在依赖性图中,离对角区域的高值揭示远距离序列元素间的相互作用。例如:

  • 在果蝇启动子区中,TATA盒与起始元件(INR)之间出现强依赖;
  • 在酵母剪接区中,供体、分支点与受体位点之间呈显著依赖关系;
  • 在人类TRPC6基因中,罕见突变破坏供体位点导致异常剪接,依赖性图可捕捉此变异引发的转录结构改变。

这些结果表明,依赖性图不仅反映序列共现,还揭示功能性剪接与转录调控网络。

图3 | 长程依赖揭示基因组调控网络

依赖性揭示RNA二级与三级结构

研究人员发现依赖性图中的反平行对角线可反映RNA茎区碱基配对关系。利用RiNALMo模型计算的依赖性得分在多个RNA家族中均能准确预测二级结构接触(AUC>0.9)。更重要的是,该方法还能识别:

  • 三级结构接触(如tRNA中的远程折叠点);
  • 假结结构(在RNase P和核糖开关中均被正确捕获);
  • 多种构象的替代折叠(如大肠杆菌色氨酸操纵子区调控结构)。

此外,研究人员通过DMS-MaPseq实验证实了多个先前未注释的非编码RNA结构,显示该方法在无比对、无监督条件下仍具极强的预测能力。

图4 | 依赖性图捕获RNA二级与三级结构

gLM可识别序列重复与倒位复制

依赖性图中的平行与反平行线条揭示了正向与反向重复,表明模型不仅记忆序列,还学习了复制操作本身。gLM不会将任意互补序列误识为配对,而是仅在特定结构背景下显示高依赖性,说明模型捕获了真实结构约束。

图5 | 基因组中序列重复与反向互补依赖性

依赖性与基因组距离的关系

在酵母中,依赖性随距离呈幂律衰减,每增加十倍距离依赖下降约78%。线粒体区域整体依赖性约为核基因组的1.6倍,且在核小体定位周期(约164 bp和152 bp)处出现周期性增强。这些规律揭示了依赖性反映了基因组物理与结构约束。

图6 | 依赖性–距离关系与基因组结构周期性

利用依赖性诊断gLM架构与训练缺陷

依赖性分析还揭示了不同模型架构的局限:

  • Nucleotide Transformer v2 因6-mer分词策略在依赖性图中产生伪影;
  • 自回归模型(Evo系列) 由于单向上下文限制,在序列起始处出现偏差;
  • 多物种训练模型 明显优于仅在单一物种(如人类基因组)上训练的模型,能够准确学习tRNA结构与变异效应。

这说明多物种训练对于捕捉稀有但关键的保守元件至关重要。

图7 | 依赖性图用于模型诊断与性能比较

讨论

研究人员提出的核苷酸依赖性为探索基因组功能关系提供了新的度量维度。它能够跨越传统序列比对的限制,揭示调控元件、RNA结构及其互作规则。相比基于重建概率的变异预测指标,依赖性更能反映功能性与潜在致病性。其在RNA结构预测中的应用尤其突出,能够在无监督条件下捕捉二级、三级结构、假结及多构象折叠。

此外,依赖性分析还能作为诊断工具,帮助研究人员比较不同模型的架构与训练策略,从而指导更通用、可解释的基因组语言建模。未来工作可结合进化信息、突变偏倚及多物种数据,进一步提升模型对复杂调控与结构信号的敏感性。

最终,核苷酸依赖性图不仅是一种分析工具,更是一种可视化窗口,让研究人员以全新的方式观察和理解基因组中的选择约束与功能组织。

整理 | DrugOne团队

Tomaz da Silva, P., Karollus, A., Hingerl, J. et al. Nucleotide dependency analysis of genomic language models detects functional elements. Nat Genet 57, 2589–2602 (2025).

https://doi.org/10.1038/s41588-025-02347-3

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档