Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nature Methods | OmiCLIP:整合组织病理学与空间转录组学的AI模型

Nature Methods | OmiCLIP:整合组织病理学与空间转录组学的AI模型

原创
作者头像
阔跃生物
发布于 2025-06-05 09:42:40
发布于 2025-06-05 09:42:40
3070
举报

在生物医学研究领域,组织病理学图像和组学数据的整合一直是重大挑战。传统计算方法往往将这两类数据分开分析,导致宝贵的空间分子信息难以被充分利用。随着空间转录组学和单细胞RNA测序技术的发展,研究人员能够获得组织切片中基因表达的空间分布信息,但如何将这些分子数据与传统的染色图像关联起来,仍缺乏系统性的解决方案。目前的计算模型要么专注于组学数据,要么专注于图像分析,缺乏将两者整合的统一多模态AI模型。

针对这一关键问题,来自休斯顿卫理公会研究所等机构的研究团队开发了名为OmiCLIP的视觉-组学基础模型,并构建了Loki分析平台。这项研究于2025年5月29日发表在《Nature Methods》上,通过创新的跨模态学习方法,成功搭建了连接组织形态学与分子特征的桥梁,为多模态组织分析提供了全新工具。

【文章核心方法】

  • OmiCLIP模型开发:这是一个视觉-转录组学基础模型,通过组织切片将H&E图像和转录组学联系起来。研究者们将转录组学数据转换为“句子”,通过连接每个切片中高表达基因的符号来实现。
  • ST-bank数据集的构建:研究者们策划了一个包含220万对组织图像和转录组学数据的数据集,涵盖了32个器官,用于训练OmiCLIP模型,整合组织学和转录组学。
  • Loki平台的开发:基于OmiCLIP模型构建的一个多模态分析平台,旨在整合组织病理学图像(H&E染色图像)和转录组学数据,为生物医学研究提供强大的分析工具,它提供了五个关键功能:组织对齐、通过批量RNA测序或标记基因进行组织注释、细胞类型分解、图像-转录组学检索和从H&E染色图像预测空间转录组学基因表达。

一、OmiCLIP模型框架

  • 数据集构建:研究者们构建了一个名为ST-bank的数据集,包含220万对组织图像和转录组学数据,涵盖了32种器官类型。这些数据来自113项研究,包括健康、癌症、心力衰竭和阿尔茨海默病等多种病理状态。
  • 数据预处理:为了消除批次效应,研究者采用了基于排名的策略,而不是直接使用原始读数计数或标准化的基因表达值。将Ensembl基因ID转换为基因符号,并去除了管家基因。然后,将基因符号按表达水平从高到低排序,并构造成句子,用于文本编码器。
  • 模型架构:OmiCLIP模型基于CoCa框架,包含一个图像编码器、一个文本编码器和一个多模态融合解码器。通过对比学习,将图像和转录组学模态对齐到一个共同的表示空间中,使得配对的图像和转录组学嵌入向量在该空间中尽可能相似。
  • 模型训练:使用ST-bank数据集对OmiCLIP进行训练,通过最大化配对的H&E图像和转录组学数据之间的相似性,优化模型参数。

图1 通过对比学习使用配对图像-转录组学数据集预训练OmiCLIP模型的工作流程
图1 通过对比学习使用配对图像-转录组学数据集预训练OmiCLIP模型的工作流程

二、Loki多模态平台

  • Loki Align:用于多节段组织对齐,包括ST-to-ST对齐、H&E图像-to-H&E图像对齐和H&E图像-to-ST数据对齐。
  • Loki Annotate:用于通过批量RNA-seq数据或标记基因对组织H&E图像进行注释。
  • Loki Decompose:用于从转录组学或组织学中分解细胞类型,参考单细胞RNA-seq数据。
  • Loki Retrieve:用于从H&E染色图像中检索转录组学数据。
  • Loki PredEx:用于从H&E染色图像预测空间转录组学基因表达。

图2 Loki平台的功能模块
图2 Loki平台的功能模块

三、验证结果与性能优势

  • OmiCLIP模型鲁棒性

(1)抗图像干扰:添加高斯噪声后,图像-转录组相似度仅下降8%(PLIP下降23%)。

(2)抗测序深度差异:在低测序深度(615 UMI)下仍保持高对齐精度(相似度>0.7)。

  •  Loki平台性能对比

Loki平台提供多种类型功能,其组织对齐功能与现有工具如PASTE、GPSA比较,PCC提升40%(肠组织数据达0.83),解决空间扭曲问题(图3)。

在组织注释功能方面,Loki可结合基因标记与语言描述,F1分数达0.96(CRC7K数据集),与现有方法如OpenAI CLIP, PLIP相比,召回率提升至93%。

图3 Loki平台组织对齐功能的性能评估
图3 Loki平台组织对齐功能的性能评估
  • 模型关键性能指标评估结果

(1)跨模态检索功能:Recall@5%达0.186,比OpenAI CLIP高3.2倍(图4)

图4 使用 Loki、OpenAI CLIP 和 PLIP 对四个验证数据集和一个测试数据集进行图像到转录组学检索评估
图4 使用 Loki、OpenAI CLIP 和 PLIP 对四个验证数据集和一个测试数据集进行图像到转录组学检索评估

(2)细胞分解功能:在结直肠癌全切片中准确预测6种细胞空间分布(图5)。

图5 全玻片人结直肠癌细胞型分解
图5 全玻片人结直肠癌细胞型分解

四、资源可用性

代码:https://github.com/GuangyuWangLab2021/Loki

模型:https://huggingface.co/WangGuangyulab/Loki

数据:ST-bank开放访问,部分临床数据需遵循TCGA/GTEx使用协议。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
空间转录组学习笔记-第6周(病理+空转强强联合)
图1a表示通过对比学习,使用从113个研究中收集的图像-转录组学数据集对OmiCLIP模型进行预训练的工作流程。
生信菜鸟团
2025/06/25
2090
空间转录组学习笔记-第6周(病理+空转强强联合)
空间转录组
近年来空间转录组技术出现在人们的视野中,由于这项技术不仅能够获得转录组的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录组技术到底是什么?它有什么用?应该怎么用?带着这几个问题我们一起来揭开空间转录组的神秘面纱。
生信交流平台
2020/08/06
2K0
空间转录组
Nat. Methods | Tangram利用深度学习和空间比对解析单细胞转录组
本文介绍由美国哈佛-麻省理工Broad研究所的Aviv Regev教授团队发表在 Nature Methods 的研究成果:本文作者提出了Tangram,一种将sc/snRNA-seq数据与从同一区域收集的各种形式的空间数据对齐的方法。Tangram可以处理来自多个形式的空间数据,包括MERFISH、STARmap、smFISH、空间转录组学(Visium)和组织学图像。Tangram可以映射任何类型的sc/snRNA-seq数据,包括多模态数据,例如来自SHARE-seq的数据。作者通过在视觉和躯体运动区的单细胞分辨率上重构全基因组解剖整合空间图,在健康小鼠脑组织上展示了Tangram。
DrugAI
2022/03/25
9180
Nat. Methods | Tangram利用深度学习和空间比对解析单细胞转录组
空间转录组学识别与肺纤维化远端肺重塑相关的分子微环境失调 | Nat.Genet
◉ 总共处理了45个肺组织核心样本(直径3-5毫米),这些样本来自未受影响的供体和肺纤维化(PF)患者,使用Xenium Analyzer仪器进行分析,其中包括四个组织微阵列(TMA),每个包含三到九个样本,以及一个额外的重复TMA,该重复TMA包含17个额外样本,并加入了细胞结合染色。◉ 我们使用定制面板以亚细胞分辨率量化了343个基因的表达。◉ 经过过滤后,我们在所有五个TMA中使用GraphSAGE方法识别转录本生态位时保留了299,018,086个高质量转录本。◉ 其中,原始TMA 1-4上的210,370,118个转录本用于构建初始GraphSAGE模型。◉ 经过进一步过滤后,我们对跨内皮、上皮、免疫和间充质谱系的1,630,319个分割核进行了细胞类型注释。◉ 展示的一个示例样本是VUILD96LA(诊断为结节病)。◉ 该图由BioRender.com创建。
生信菜鸟团
2025/03/21
1500
空间转录组学识别与肺纤维化远端肺重塑相关的分子微环境失调 | Nat.Genet
空间转录组技术在免疫治疗中的应用潜力和前景
肿瘤内异质性对癌症患者的准确诊断和建立个性化治疗策略带来了重大挑战。这种异质性可能是治疗耐药性、疾病进展和癌症复发的基础。为了提高免疫治疗效果,研究人员使用空间转录组技术(spatial transcriptome,ST)来识别,阻断肿瘤异质性的来源,提供识别新的生物标志物的能力,并深入了解肿瘤细胞、脂肪组织、血管、三级淋巴结构和TME间基质之间的动态相互作用。目前多项技术已经被应用于癌症组织内的这种分析,包括,原位杂交,数字空间分析以及一种新兴技术的空间基因表达解决方案。将定量基因表达数据,并将它们映射到组织结构上。通过保留空间信息可以很好地识别新的生物标志物,该技术可能会影响新的组合免疫疗法。
生信交流平台
2022/09/21
7300
空间转录组技术在免疫治疗中的应用潜力和前景
空间转录组学习笔记-第8周(空转分辨率讨论)
自 2016 年首个基于微阵列芯片(分辨率约 200 μm)的功能原型诞生以来,sST 通过多种创新策略实现了分辨率跨越式的提升。在过去近十年中,sST 平台遵循着中心距每年减半的趋势,分辨率提高了超过 1000 倍,突显了 ST 技术的快速发展步伐。
生信菜鸟团
2025/07/08
960
空间转录组学习笔记-第8周(空转分辨率讨论)
单细胞+空间揭示胰腺导管腺癌的组织结构
文献标题:Integrating microarray-based spatial transcriptomics and single-cell RNA-seq reveals tissue architecture in pancreatic ductal adenocarcinomas
生信技能树jimmy
2024/05/11
3390
单细胞+空间揭示胰腺导管腺癌的组织结构
空间转录组
空间转录组,也称为 spatial gene expression,简称 ST-seq,是将转录组学,单细胞测序技术以及组织切片技术结合起来的技术。
生信喵实验柴
2023/02/24
3.3K0
空间转录组
整合多模态空间组学数据开源框架--SpatialData
在当今生命科学领域,空间组学技术(spatial omics technologies)已成为揭示生物组织结构与功能复杂交互关系的重要工具。这些技术通过在组织特定位置对DNA、RNA、蛋白质以及代谢物的定量分析,使研究人员能够以前所未有的分辨率和全面性理解生物组织的分子组成和空间结构。然而,伴随空间组学数据量的爆炸式增长以及数据类型的多样化,如何高效地处理、整合以及分析这些大规模的空间组学数据集成为了该领域面临的重要挑战。为应对这一挑战,一种名为SpatialData的开放式和通用数据框架应运而生(3月20日 Nature Methods “SpatialData: an open and universal data framework for spatial omics”)。这一框架旨在为空间组学数据提供一个统一和可扩展的多平台文件格式,同时提供对超出内存大小的数据延迟加载、数据转换和对常用坐标系统的对齐等功能。通过SpatialData,研究人员可以方便地进行空间注释、跨模态聚合分析,极大地提升了空间组学数据的可用性和分析效率。空间组学结合了成像和分子分析技术,可以在细胞乃至亚细胞水平上定位和量化分子,揭示细胞在组织中的精确位置及其相互作用。然而,不同的空间组学技术,如基于荧光显微镜的成像技术和基于测序的空间转录组学,往往产生不同格式和类型的数据,这些数据的差异性为数据的集成和综合分析带来了难题。SpatialData框架通过建立一个统一的数据格式和程序接口来解决这一问题,使得来自不同来源和技术的空间组学数据可以被统一处理和分析。此外,该框架还支持对数据进行延迟加载和多尺度展示,这对于处理大规模数据集尤为重要。通过SpatialData,研究人员可以轻松地在多个数据模态之间进行对齐和集成分析,推动对生物系统空间组织结构的深入理解。
追风少年i
2024/04/27
3330
整合多模态空间组学数据开源框架--SpatialData
通过整合空间转录组学与组织学推断超分辨率组织结构(iStar )
追风少年i
2024/06/01
3070
通过整合空间转录组学与组织学推断超分辨率组织结构(iStar )
空间组学 | NG | 人前列腺的空间转录组分析
◉ 队列1包括7名因膀胱癌接受根治性膀胱切除术患者的前列腺,每个前列腺根据解剖位置取样。所有样本均进行了BD Rhapsody单细胞核RNA测序。◉ 队列2由4名同样接受根治性膀胱切除术患者的前列腺组成,每位患者前列腺的外周区、移行区和中央区各取一个样本。这些样本随后进行了BD Rhapsody单细胞转录组测序、10x Genomics Multiome和10x Genomics Visium空间转录组测序。◉ 面板a使用BioRender.com创建。◉ b, 按主要细胞身份颜色编码的scRNA-seq(左)、snRNA-seq(中)和snATAC-seq(右)数据的UMAP图。◉ c, scRNA-seq和10x Multiome平台捕获的主要细胞类型的比例。ARC,调控因子和染色质分析;EC,内皮细胞;Epi,上皮细胞;Fib,成纤维细胞;ILC,先天淋巴细胞;SKMC,骨骼肌细胞。
生信菜鸟团
2025/04/26
1830
空间组学 | NG | 人前列腺的空间转录组分析
空间转录组学(Spatial Transcriptomics)
前面给大家简单的科普了空间转录组,可能还是有些人对背后的技术原理有些疑惑,那么我们深入的探讨一下技术原理。文末有视频会更直观。
生信交流平台
2020/08/06
10.1K0
空间转录组学(Spatial Transcriptomics)
Nature 子刊!从整张幻灯片图像预测肿瘤RNA-Seq表达的深度学习模型
肿瘤活检切片的组织学分析是肿瘤学中的重要工具,可提供高分辨率的肿瘤图谱,帮助病理学家确定诊断和分级。
作图丫
2022/04/28
1.1K0
Nature 子刊!从整张幻灯片图像预测肿瘤RNA-Seq表达的深度学习模型
空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架
生信菜鸟团
2025/02/03
2670
空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架
提供超全面代码,看看顶刊 Nat Med 是如何用单细胞和空间转录组研究癌症的
生信菜鸟团
2024/11/28
2270
提供超全面代码,看看顶刊 Nat Med 是如何用单细胞和空间转录组研究癌症的
有代码 | Nature | 转移性胰腺癌中转录组可塑性的空间映射
◉ a,本研究的示意图。从四种不同类型的胰腺导管腺癌(PDAC)病变中采集了速冻组织样本:原发肿瘤(Pri)、肝转移(LiM)、肺转移(LuM)和腹膜转移(PerM,包括大网膜、膈肌和腹壁)。使用10x Genomics的Visium平台对来自13名PDAC患者的共计49份活检样本进行了空间转录组(ST)测序。◉ b,显示所收集ST样本分布的点阵图。Pt-1至Pt-5为未经治疗的患者(n=5),Pt-6至Pt-13为接受过化疗的患者(n=8)。◉ a、b中的示意图使用BioRender(https://www.biorender.com)绘制。◉ c,来自49个样本的134,776个点的空间转录组数据的UMAP可视化图。各个点按照其组织来源进行着色。◉ d,针对每位患者肿瘤细胞富集点的分层聚类分析。根据是否存在肺转移(LuM)和腹膜转移(PerM)位点以及原发灶(Pri)与腹膜转移灶(PerM)之间肿瘤点的转录组相似性对患者进行排序。◉ e,基于原始ST数据,来自13名患者的67,990个肿瘤细胞富集点的UMAP可视化图。
生信菜鸟团
2025/07/04
1040
有代码 | Nature | 转移性胰腺癌中转录组可塑性的空间映射
单细胞空间转录组学分析lncRNAs
追风少年i
2024/10/12
2690
单细胞空间转录组学分析lncRNAs
推荐阅读
相关推荐
空间转录组学习笔记-第6周(病理+空转强强联合)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档