前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据库 | NAR | scLTdb:一个全面的单细胞谱系追踪数据库

数据库 | NAR | scLTdb:一个全面的单细胞谱系追踪数据库

作者头像
生信菜鸟团
发布于 2025-05-23 03:15:43
发布于 2025-05-23 03:15:43
1090
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
图片
图片

Basic Information

  • 英文标题:scLTdb: a comprehensive single-cell lineage tracing database
  • 中文标题:scLTdb:一个全面的单细胞谱系追踪数据库
  • 发表日期:29 October 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Junyao Jiang | Weike Pei
  • 文章链接:https://academic.oup.com/nar/article/53/D1/D1173/7848853

Abstract

  1. 单细胞谱系追踪(scLT)是一种强大的技术,它将细胞条形码与单细胞测序技术相结合。
  2. 这种新方法能够在单细胞分辨率下同时测量细胞命运和分子谱型,揭示细胞命运决定的基因调控程序。
  3. 然而,目前还没有一个全面的 scLT 数据库。
  4. 在此,我们介绍单细胞谱系追踪数据库(scLTdb,https://scltdb.com),该数据库包含 109 个经过人工整理和通过标准管道分析的数据集。
  5. scLTdb 提供了用于可视化和重新分析 scLT 数据集的交互式分析模块,特别是全面的细胞命运分析和谱系关系分析。
  6. 重要的是,scLTdb 还允许用户识别与命运相关的基因特征。
  7. 总之,scLTdb 提供了一个用于探索和分析 scLT 数据的交互界面,并将有助于理解发育和疾病中的细胞命运决定和谱系承诺。
图片
图片

Introduction

Para_01
  1. 干细胞和发育生物学的一个基本目标是准确解析单个细胞的发育历史和细胞命运。
  2. 为此,谱系追踪被广泛用于通过识别组织中单个细胞的所有后代来提供关于创始细胞及其后代的位置、数量和细胞状态的关键信息。
  3. 传统的谱系追踪方法涉及使用荧光蛋白对祖细胞进行遗传标记,并在体内追踪其后代细胞的行为。
  4. 它为研究干细胞在组织发育、维持和再生过程中的命运决定机制提供了新的见解。
  5. 然而,传统的谱系追踪方法要么受到侵入性细胞操作(例如移植)的限制,这些操作可能会扰乱细胞的生理状态,要么受限于有限数量的荧光报告基因,无法在单细胞分辨率下定量分析大量细胞。
Para_02
  1. 近年来,下一代谱系追踪涉及使用大量合成 DNA 序列对细胞进行唯一标记(预期谱系追踪),为干细胞动态和细胞命运结果提供了定量见解。
  2. 这种策略可以通过多种条形码类型实现,包括将外源随机 DNA 序列整合到细胞基因组中、内源性 DNA 单元的重组或通过基因编辑介导的 DNA 插入和删除(INDEL)。
  3. 细胞条形码使研究人员能够根据特定的 DNA 条形码序列在克隆分辨率下区分单个细胞。
  4. 将细胞条形码与单细胞基因组学结合,也称为单细胞谱系追踪(scLT),已经生成了丰富的数据集,可以并行解析相同细胞的命运及其转录或表观遗传状态。
  5. scLT 的出现开始揭示各种组织(如中枢神经系统和造血系统)中细胞命运决定的基因调控程序,并解析肿瘤形成、转移和耐药过程中癌细胞克隆行为的机制。
  6. 因此,scLT 为精确操控体内细胞命运以及预测癌症的细胞起源提供了洞见。
图片
图片

图片说明

◉ 图1. 单细胞长读长测序技术及其条形码类型的介绍。

Para_03
  1. 现在,利用细胞中积累的突变和DNA变异作为自然条形码,单细胞谱系追踪(scLT)用于重建人类造血和癌症中的高分辨率谱系树(回顾性谱系追踪),这是医学研究中所缺乏的。
  2. 作为一种新兴技术,scLT 开始深化我们对疾病病理学的理解,特别是解析人类疾病中的克隆贡献。
  3. 鉴于 scLT 在生物学和医学中的重要性,公开可用的 scLT 数据需要进行深入和综合分析,以获得关于发育和疾病中细胞命运决定的新见解。
Para_04
  1. 迄今为止,没有公开的单细胞谱系追踪数据库。为了填补这一空白,我们开发了单细胞谱系追踪数据库(scLTdb),这是一个具有多功能模块的综合单细胞谱系追踪数据库,用于分析基因表达、克隆组成、命运结果、谱系关系和细胞命运决定的潜在调控因子。
  2. 我们收集了109个数据集,包括三个物种、13个组织来源、280万个细胞和36种单细胞谱系追踪技术。
  3. scLTdb有三个特别的特点。首先,scLTdb是一个专门用于谱系追踪的数据库,提供了一个传统单细胞RNA测序(scRNA-seq)数据集中被忽视的命运解析细胞图谱。
  4. 其次,scLTdb提供了用于细胞命运数据分析的交互式模块,作为命运映射和谱系重建的高可信度资源。
  5. 第三,scLTdb允许用户识别与命运相关的基因表达或染色质可及性,揭示命运偏倚之间的分子差异。
  6. 此外,用户可以上传自己的数据并进行克隆命运分析。
  7. 因此,scLTdb为现有和未发表的单细胞谱系追踪数据集的分析提供了一个强大的工具,这将有助于理解细胞行为以及健康和疾病中细胞命运决定的机制。

Materials and methods

Data collection

数据收集

Para_05
  1. 为了构建一个全面的资源库,我们手动整理了截至2024年6月的单细胞谱系追踪(scLT)数据集。
  2. 我们从多个数据库下载了scLT数据集,包括基因表达综合数据库、NCBI BioProject和Zenodo。
  3. 每个数据集包含与细胞谱系条形码配对的转录组或表观基因组信息。
  4. 我们还手动审查了文献和补充材料,以整理每个数据集的元信息,包括物种、条形码类型、scLT技术以及组织来源。

Data pre-processing

数据预处理

Para_06
  1. 我们采用了四步流程来预处理单细胞长读长测序数据。
  2. (i)根据原研究的标准,我们去除了低质量的细胞。
  3. (ii)我们使用R包Seurat(版本4.4.0)中的‘NormalizeData’函数对数据进行了标准化处理。
  4. (iii)我们通过主成分分析和均匀流形近似与投影(UMAP)减少了数据维度并可视化了细胞,使用的是R包Seurat中的‘RunPCA’和‘RunUMAP’函数。
  5. (iv)对于细胞类型注释,我们基于CellMarker2.0数据库中已知的细胞标记物表达或原始研究提供的细胞身份信息对细胞进行了注释。

Pseudo-time inference

伪时间推断

Para_07
  1. 我们利用了 omicverse Python 包(版本 1.5.9)中实现的基于分区的图抽象(PAGA)方法,构建轨迹并推断每个数据集的伪时间。
  2. 为此,我们使用 ‘ov.single.TrajInfer’ 函数构建扩散图,并将参数 ‘n_comps’ 设置为 50,然后应用 ‘ov.Traj.inference’ 函数计算伪时间值。

Identification of high-confidence barcodes (clones)

高置信度条形码(克隆)的识别

Para_08
  1. 由于技术问题,在初始条形码阶段,一些条形码标记了多个细胞。这些条形码不能代表来自单个祖细胞的细胞,称为克隆。因此,在克隆分析之前需要过滤这些条形码。
  2. 我们应用原始论文的方法在 scLTdb 中呈现高置信度的条形码。

Alignment of single-cell lineage barcodes

单细胞谱系条形码的对齐

Para_09
  1. scLT实验生成一个FASTQ文件,其中包含谱系条形码及其在单细胞RNA(或单细胞ATAC)数据中对应的细胞索引。
  2. 理论上,一个细胞只有一个谱系条形码,因此一个细胞索引应该只匹配一个条形码序列。
  3. 然而,由于测序错误,一个细胞索引可能会匹配多个条形码。
  4. 因此,有必要将唯一的条形码与每个细胞索引对齐。
  5. 在我们的数据库中,我们采用了原始研究的方法来识别每个细胞索引的唯一条形码。

Clone analysis and visualization

克隆分析与可视化

Para_10
  1. 为了分析和可视化单细胞长读测序数据中的谱系条形码,我们将所有分析步骤封装到一个名为 FateMapper 的 R 包中(https://github.com/jiang-junyao/FateMapper)。
  2. FateMapper 主要包含四个功能:(i) ‘cal_clone_size’ 函数用于计算每个单细胞长读测序数据集中克隆的大小。克隆大小表示携带相同克隆条形码的细胞数量。克隆大小信息通过 R 包 ggplot2(版本 3.3.6)进行可视化。
  3. (ii) ‘fate_mapping’ 函数用于通过可视化条形码在各种细胞类型中的传播来映射目标群体的细胞命运偏向。此函数计算特定条形码在目标群体中与所有细胞类型的比例。计算条形码比例的公式如下:
Para_11
  1. ‘lineage_relationship’ 函数用于分析和可视化各种细胞类型之间的谱系关系。它计算每对细胞类型之间的条形码特征的 Spearman 相关性,然后通过 R 包 pheatmap 中的 ‘pheatmap’ 函数可视化结果。
  2. ‘plot_clone_embedding’ 函数用于使用 R 包 ggplot2 在嵌入图中可视化具有相同命运偏好的单个克隆或一组克隆。

Clone fate bias analysis

克隆命运偏倚分析

Para_12
  1. 克隆命运偏倚代表了祖细胞分化为特定下游细胞类型的偏好。
  2. 对于定义了克隆命运偏倚的研究,我们直接使用这些信息在我们的数据库中标记克隆命运偏倚,确保我们的分析与原始研究一致。
  3. 对于其他研究,我们使用 R 包 FateMapper 中的 ‘clone_fate_bias’ 函数来评估每个克隆的命运偏倚。
  4. 该函数使用 Fisher 精确检验来量化克隆在一组细胞类型中的占有情况与其随机抽样预期之间的统计显著性差异。
  5. 随后,我们根据 Benjamini-Hochberg 程序对 ‘clone_fate_bias’ 分析获得的 P 值进行了假发现率(FDR)调整。
  6. 通过这种调整,我们识别出具有显著命运偏倚的克隆(FDR < 0.05)。

Identification and visualization of fate-related DEGs or DARs

命运相关差异表达基因或差异可及性区域的识别与可视化

Para_13
  1. 为了在单细胞 RNA 测序(scRNA-seq)数据中识别具有不同命运偏向的细胞的差异表达基因(DEGs),我们使用了 R 包 Seurat 中的‘FindMarker’函数。
  2. ‘FindMarker’函数中的‘test.use’参数设置为‘negbinom’。
  3. 为了在单细胞 ATAC 测序(scATAC-seq)数据中识别不同命运偏向之间的差异可及区域(DARs),我们将‘FindMarker’函数中的‘test.use’参数调整为‘wilcox’。
  4. 选择 P 值 <0.05 且 Log2FoldChange 绝对值 >0.5 的基因和峰作为 DEGs 和 DARs。
  5. 峰相关基因通过 R 包 IReNA(版本 1.0.0)中的‘get_related_genes’函数进行注释。
  6. 使用 R 包 Seurat 中的‘Doheatmap’函数和 R 包 ggplot2 中的‘ggplot’函数来可视化 DEGs 和 DARs。
  7. 我们使用 R 包 ClusterProfiler(版本 3.18.1)基于基因本体(GO)数据库进行功能富集分析,参数‘pvalueCutoff’设置为 0.05。

Motif enrichment analysis

基序富集分析

Para_14
  1. 来自 R 包 'motifmatchr'(版本 1.16.0)的 'matchMotifs' 函数用于扫描每个差异可及区域上的富集基序,并计算基序富集分数。
  2. 参数 'p.cutoff' 设置为 5e−05。
  3. 位置权重矩阵从 R 包 chromVARmotifs(版本 0.2.0,https://github.com/GreenleafLab/chromVARmotifs)中获得。

Implementation

实施

Para_15
  1. scLTdb 已经开发为一个利用 R 的 Shiny 框架构建的交互式网络应用程序(https://shiny.rstudio.com/)。
  2. 此外,我们使用了多个 R 包来增强网页界面的美观性,包括用于复杂静态图形的 ggplot2、用于交互元素的 shinyWidgets、用于动态可视化的 plotly 和用于用户界面组件的 shinyjqui。
  3. scLTdb 可免费访问于 https://scltdb.com。

Results

Scheme of scLTdb

scLTdb的方案

Para_16
  1. scLTdb 提供了截至 2024 年 6 月前发布的 109 个数据集的全面概述。
  2. 我们使用标准管道分析了每个 scLT 数据集,并开发了三个功能模块,以方便浏览和分析每个数据集(图 2)。
  3. 单细胞模块提供了多种转录组或表观基因组分析功能,如细胞类型注释、伪时间推断、细胞克隆嵌入和基因表达投影。
  4. 谱系追踪模块为用户提供交互工具,用于分析克隆大小、细胞命运结果、克隆命运偏差和谱系关系。
  5. 整合模块展示了 scRNA-seq 和谱系追踪数据的整合分析,包括不同命运结果细胞之间的差异基因表达分析。
  6. 用户可以在该模块中可视化感兴趣基因在不同细胞命运偏差中的表达情况。
  7. 此外,scLTdb 还提供在线工具,供用户分析自己的 scLT 数据,并提供逐步教程,帮助用户探索 scLTdb(图 2)。
图片
图片

图片说明

◉ 图2. scLTdb的示意图。

Summary of scLTdb

scLTdb 的摘要

Para_17
  1. scLTdb 提供了从 2017 年到 2024 年 6 月进行的单细胞长读测序研究的广泛汇编。
  2. 目前,该数据库包含了 109 个使用不同条形码类型的数据集,并且这些数据集的数量在过去几年中急剧增长。
  3. 2023 年的增长最为显著,新增了 29 个数据集,这突显了单细胞长读测序在免疫学和发育生物学等领域的日益重要性。
  4. 其中,整合条形码类型是最常用的方法,生成了 52 个单细胞长读测序数据集。
  5. 此外,小鼠和人类是研究最多的两个物种,分别占所有实验的 55.96% 和 33.94%。
图片
图片

图片说明

◉ 图3. scLTdb的数据总结。A 部分展示了从2017年到2024年累积的scLT数据集数量,颜色代表条形码类型。◉ B 部分按物种和条形码类型汇总的数据集数量。◉ C 部分的柱状图展示了不同组织来源的scLT数据集数量。◉ D 部分的点图显示了每个数据集的条形码检测率和唯一条形码数量,颜色代表scLT技术,形状代表条形码类型。

Para_18
  1. scLTdb 包含 13 种不同的组织来源。
  2. 造血祖细胞拥有最多的数据集,共有 37 个数据集(小鼠 27 个,人类 7 个和斑马鱼 3 个),细胞系(人类 18 个和小鼠 4 个)和大脑(小鼠 18 个和斑马鱼 4 个)位居第二,共有 22 个(图 3C)。
Para_19
  1. 单细胞谱系追踪实验的分辨率和稳健性在很大程度上取决于独特的条形码数量以及携带可检测条形码的细胞比例。
  2. 为了比较这两种关键技术参数,我们计算了每个数据集的条形码多样性(独特条形码数量)和条形码检测率(使用单细胞RNA测序可以检测到条形码的细胞比例)。
  3. 拥有最高独特条形码数量的两个数据集分别由CellTag(48,234个独特条形码)和SISBAR(32,549个独特条形码)生成,这表明在这两项研究中使用的整合型条形码具有高分辨率。
  4. 尽管基于回顾性谱系追踪方法(RETrace)和整合方法生成的数据集具有100%的检测率,但这些技术的独特条形码数量有限(分别为8个和87个条形码)。
  5. 关于单细胞谱系追踪技术及其数据集的详细信息,包括优势、局限性、质量控制和数据处理程序,可以在补充材料中找到(补充表S1-S3)。

Searching and querying datasets in scLTdb

在scLTdb中搜索和查询数据集

Para_20
  1. 在 scLTdb 的‘搜索’界面中,用户可以根据‘物种’、‘组织来源’、‘技术’和‘条形码类型’等选项轻松查询单细胞 LT 数据集。
  2. 查询结果以交互表格形式呈现,包括数据集相关论文的研究名称和 PubMed ID。
  3. 用户可以在表格中选择一个数据集并点击‘选择数据集’按钮以访问所选数据集的分析结果(图 4A)。
图片
图片

图片说明

◉ 图4. 搜索页面和单细胞模块的网页界面。(A) scLTdb的数据搜索页面。(B) 所选数据集的数据汇总表。(C) 每种细胞类型(状态)的细胞数量条形图。(D 和 E) 单细胞嵌入图,按细胞类型(状态)或伪时间着色。鼠标指针突出显示一个交互按钮,可用于更改细胞类型(状态)、伪时间、样本信息和组信息的颜色表示。(F) 单细胞嵌入图,按偏向嗜碱性粒细胞(Baso)的克隆着色。鼠标指针突出显示一个交互按钮,便于在嵌入图上绘制具有相同命运偏向的一组克隆。(G) 单细胞嵌入图,按特定单个克隆(克隆ID:5714)着色。鼠标指针突出显示一个交互按钮,便于在嵌入图上绘制单个克隆。(H) 单细胞嵌入图,按Gata2表达量着色。鼠标指针突出显示一个用于输入基因名称的输入框。

Functional modules

功能模块

Para_21
  1. scLTdb 提供了三个功能模块,使用户可以通过网页界面重新分析和可视化 scLT 数据集,包括单细胞模块、谱系追踪模块和整合模块。
  2. 我们选择了一个小鼠造血的 scLT 数据集来展示这些交互模块的可用性。
  3. 该数据集是由基于整合条形码的 scLT 技术(LARRY)生成的,用于跟踪体外造血干细胞和祖细胞(HSPCs)的分化。
  4. 在条形码标记和细胞分裂后,细胞立即或在分化后被采样,目的是将细胞的初始状态与其转录景观中的命运结果整合起来。
  5. 为了减少数据加载时间,如果选定的数据集超过 10,000 个细胞,则单细胞模块中的嵌入图和整合模块中的小提琴图将仅显示 10,000 个细胞的采样数据集。

Single-cell module

单细胞模块

Para_22
  1. 转录组或表观基因组分析可以生成单细胞纵向时间序列数据集中细胞身份和细胞状态动态的全局图景。
  2. 因此,scLTdb 提供了单细胞模块,该模块提供了多种功能,用于可视化和重新分析选定数据集中的基因表达、DNA 甲基化和染色质可及性。
Para_23
  1. 在本模块中,用户可以通过参考数据摘要表(图4B)首先对选定的数据集有一个总体了解。这个表格包含选定数据集的关键信息,包括数据集名称、唯一条形码编号、细胞数量、具有配对条形码的细胞数量、条形码检测率、细胞类型(状态)数量、注释来源和克隆命运偏差来源(图4B)。此外,该模块还提供了一个条形图来显示每种细胞类型的细胞数量(图4C)。另外,用户可以查看按细胞类型(状态)着色的单细胞嵌入图(图4D)。该图允许用户获取关于细胞身份和组成的初步信息。通过点击‘按颜色’按钮,用户可以选择用样本信息、时间信息或使用PAGA算法推断的伪时间值替换嵌入图中的颜色编码(图4E)。这种伪时间分析使用户能够可视化细胞的假设发育轨迹。然后,用户可以在单细胞嵌入图上投影细胞谱系条形码,以可视化来自具有相同命运偏差的祖细胞的所有克隆的发育轨迹。例如,在选择‘嗜碱性粒细胞偏向’克隆时,scLTdb生成一个突出显示源自HSPC并偏向嗜碱性粒细胞谱系的细胞(紫色点)的嵌入图(图4F)。当选择具有‘嗜碱性粒细胞偏向’命运的单个克隆时,scLTdb生成一个仅根据该特定克隆着色的嵌入图(图4G)。除了细胞克隆投影外,该模块还提供了一个交互功能,允许用户通过输入基因名称在嵌入图上可视化基因表达(图4H)。此外,我们还提供了标记基因信息,使用户能够可视化每种细胞类型的前五名差异表达基因。
  2. 这些功能帮助用户更全面地理解数据集,并为后续分析提供基础。

Lineage tracing module

谱系追踪模块

Para_24
  1. 系谱追踪实验提供了细胞命运和细胞系的真相信息。因此,scLTdb 提供了一个系谱追踪模块,允许用户在 scLT 数据集中可视化和重新分析细胞命运结果和系谱关系。
Para_25
  1. ‘条形码统计’功能提供了细胞克隆信息的定量概览。
  2. 用户可以生成两个条形图,分别展示每种细胞类型中唯一条形码的数量和带有配对条形码的细胞数量(图5A和B)。
  3. 此功能还可以可视化携带相同克隆条形码的细胞数量(即克隆大小),这可以推断出克隆扩增或细胞间竞争事件。
  4. 此外,它会生成一个按降序排列的克隆大小条形图,从最大到最小。
  5. 当鼠标悬停在每个条形上时,会显示克隆大小、克隆ID以及选定克隆中的细胞类型数量(图5C)。
  6. 此外,谱系追踪模块提供了‘克隆大小范围’功能,使用户能够可视化不同范围内的克隆大小。
  7. 最后,用户可以通过谱系追踪模块中的小提琴图探索克隆大小与相关细胞类型数量之间的相关性。
图片
图片

图片说明

◉ 图5. 血统追踪模块的网页界面。(A)每个细胞类型(状态)中条形码数量的柱状图。◉ (B)每个细胞类型(状态)中检测到条形码的细胞数量的柱状图。◉ (C)克隆大小的柱状图。用户可以将鼠标指针放在柱状图上以查看克隆ID、克隆大小以及选定克隆中的细胞类型数量。◉ (D)命运结果的热图。每一列代表一个细胞类型(状态),每一行代表一个条形码,值表示条形码在细胞类型(状态)中的富集程度。用户可以通过拖动左侧面板中的细胞类型框上下移动来操作命运结果热图中细胞类型列的顺序。◉ (E)HSPC的命运偏向总结。柱状图显示了HSPC向其他细胞类型的命运偏向比例。◉ (F)血统关系的热图,值表示细胞类型(状态)之间的Spearman相关性。用户可以使用左侧面板中的按钮选择感兴趣的细胞类型以推断血统关系。

Para_26
  1. ‘命运结果’功能旨在通过可视化祖细胞与其子细胞之间的条形码传播来映射目标群体的细胞命运。
  2. 用户可以在不同细胞类型或分组信息(如时间点)之间浏览细胞命运结果,并在命运结果热图中调整细胞类型列的顺序(图5D和补充图S2C)。
  3. 此功能可以计算祖细胞向下游特定细胞类型的分化偏向,从而生成细胞命运偏向的定量分析。
  4. 例如,我们展示了小鼠造血过程中HSPC的命运偏向。
  5. 柱状图显示,大多数HSPCs(65.46%)表现出‘HSPC偏向’的命运,表明这些细胞更倾向于自我更新或保持不活跃而不是分化(图5E)。
  6. 此外,9.3%的HSPCs表现出‘单核细胞偏向’的命运,表明它们倾向于分化为单核细胞(图5E)。
Para_27
  1. ‘谱系关系’功能用于比较不同细胞类型(状态)之间的谱系相似性,基于每种细胞类型或组中存在的条形码数量和频率(例如在不同时间点)(图5F和补充图S2D)。
  2. 如果两种细胞类型在相似的频率下共享许多条形码,则它们很可能源自共同的发育途径;如果不是,则它们可能独立发育。
  3. 用户可以计算细胞类型之间条形码的谱系相似性,并生成热图以可视化谱系关系(图5F)。
  4. 谱系树显示在热图顶部,展示了关系和发育层次。
  5. 例如,嗜酸性粒细胞和嗜碱性粒细胞位于同一分支,表明这两种细胞类型之间有密切的谱系关系。
Para_28
  1. 此外,scLTdb 提供了适用于系统发育分析的基于 Cas9 和回顾性谱系追踪数据集的系统发育树。
  2. 用户可以从下载页面下载上述数据集的原始谱系条形码序列,并使用它们构建系统发育树。

Integration module

集成模块

Para_29
  1. 由于谱系追踪数据可以提供真实的细胞谱系信息,谱系追踪与基因表达或染色质可及性数据的整合分析可用于识别具有特定命运偏向的细胞的潜在分子标记或调节因子。
  2. 此外,在比较不同大小的单克隆时,可能揭示驱动细胞增殖、细胞适应性或分化的分子程序。
  3. 因此,scLTdb 提供了整合模块,该模块提供了一系列功能,用于执行与细胞命运相关的基因或染色质可及区域的整合分析。
Para_30
  1. 该模块可以计算不同命运偏向的差异表达基因(DEGs)。
  2. 用户可以通过两个步骤识别与命运偏向相关的DEGs:(i) 使用‘选择细胞类型’按钮选择一个细胞类型,以及 (ii) 使用‘选择命运偏向’按钮选择一个细胞命运偏向组(图6A)。
  3. 我们提供热图和火山图来展示DEGs分析的结果。
  4. 对于火山图,用户可以通过调整P值和倍数变化的阈值来定义显著的DEGs(图6B)。
  5. 例如,我们鉴定了具有淋巴系偏向和红系偏向的造血干细胞(HSPCs)之间的DEGs。
  6. 热图显示了每组中排名前15的DEGs,包括Hbb-bt和Hbb-bs,这些是红系谱系的标志物。
  7. 相反,Cd28,一个对T细胞活化至关重要的基因,在淋巴系偏向的HSPCs中被发现上调(图6A)。
  8. 此外,scLTdb还为鉴定的DEGs提供GO富集分析。
  9. 结果表明,淋巴系偏向的HSPCs在淋巴细胞分化、T细胞分化和淋巴细胞活化的正向调控基因中富集,这表明它们有向淋巴系分化的潜力(图6C)。
  10. 另一方面,红系偏向的HSPCs在红细胞分化基因中富集,表明它们有向红系分化的潜力(图6D)。
  11. 最后,该模块还提供了一个交互式小提琴图,以可视化特定基因在给定细胞类型内不同命运偏向中的表达情况。
  12. 用户可以通过小提琴图上方的输入框指定感兴趣的细胞类型和基因(图6E)。
  13. 例如,我们选择了HSPC作为目标细胞类型,并选择了红系标志物Hbb-bs。
  14. 结果显示,Hbb-bs在具有红系偏向的HSPCs中表达较高。
图片
图片

图片说明

◉ 图6. 集成模块的网络界面。(A和B)淋巴系偏向的HSPCs与红系偏向的HSPCs之间差异表达基因的热图和火山图。鼠标指针突出显示了两个可用于调整差异表达基因阈值的开关。◉ (C)淋巴系偏向的HSPCs的差异表达基因的GO富集分析条形图。◉ (D)红系偏向的HSPCs的差异表达基因的GO富集分析条形图。◉ (E)不同命运偏向的HSPCs的Hbb-bs表达的小提琴图。鼠标指针突出显示了一个用于输入基因名称的输入框。◉ (F–G)多能祖细胞(MPP)在平衡命运结果和单核细胞系偏向时的差异可及区域热图和基序富集分析。

Para_31
  1. 对于包含细胞命运信息和配对的单细胞 ATAC 测序数据的数据集,该模块还可以计算具有不同命运偏向的细胞的差异可及染色质区域。
  2. 我们提供热图来展示在特定命运偏向中富集的命运相关开放染色质区域,并进行了基序富集分析以显示差异可及染色质区域的潜在 DNA 结合蛋白(图 6F 和 G)。
  3. 综上所述,集成模块使用户不仅可以识别可能参与细胞命运决定的基因或基因组区域,还可以预测具有不同命运偏向的细胞之间的功能差异。

Data download and online tools

数据下载和在线工具

Para_32
  1. scLTdb 便于下载处理良好的单细胞长程转录组数据集。
  2. 在‘下载’部分,scLTdb 提供了一个交互式表格,用户可以使用各种标准(如‘物种’、‘组织来源’、‘条形码类型’和‘技术’)来搜索数据集。
  3. 在执行查询后,用户可以从‘H5ad 数据下载’列中获取所选数据集的 H5ad 格式的下载链接,或从‘R 数据下载’列中获取 Seurat 对象格式的下载链接(图 7A)。
  4. 此外,‘命运偏差差异表达基因/差异可及性区域下载’列还提供了命运偏差差异表达基因或差异可及性区域表的下载链接(图 7A)。
  5. 该表包含命运偏差差异表达基因或差异可及性区域的完整分析结果,包括差异表达基因的 P 值和倍数变化。
图片
图片

图片说明

◉ 图7. 下载页面和在线工具的网页界面。(A)下载页面的网页界面。用户可以点击超链接(‘下载数据’)以访问数据集的下载页面。◉ (B)scLTdb 在线工具中的克隆大小分析功能。用户可以将鼠标指针放在条形上以查看克隆 ID 和克隆大小。◉ (C)在线工具中的命运结果功能。每一列代表一个细胞类型(状态),每一行代表一个条形码。◉ (D)在线工具中的命运偏向总结功能。条形图显示了 HSPC 命运偏向其他细胞类型的比例。◉ (E)在线工具中的谱系关系。数值表示细胞类型(状态)之间的 Spearman 相关性。◉ (F)不同细胞命运偏向之间的差异表达基因热图。用户需要首先上传基因-细胞矩阵(峰-细胞矩阵)和细胞元数据,然后选择细胞类型和命运偏向以启动分析。

Para_33
  1. 对于需要处理自己的单细胞淋巴细胞追踪数据的用户,我们已在我们的网络服务器上开发了在线工具用于克隆分析。
  2. 在‘在线工具’页面,用户可以通过点击‘上传’按钮上传一个克隆矩阵,其中行代表克隆,列代表细胞类型。
  3. 然后,scLTdb 将生成克隆分析结果,包括克隆大小统计信息、细胞命运结果、命运偏向总结、谱系关系和与命运相关的基因(图7B–F)。

Discussion

Para_34
  1. 推断谱系关系的黄金标准是谱系追踪。作为一种新兴技术,单细胞谱系追踪(scLT)能够同时检测细胞状态(转录组或表观基因组)和用于细胞标记和谱系推断的DNA条形码,这为发现新的细胞谱系和细胞命运调节因子提供了强大的平台。
Para_35
  1. 为了收集和分析不断增长的单细胞长读段数据,我们构建了第一个 scLTdb,该数据库可以通过条形码提供真实的细胞谱系信息。
  2. scLTdb 涉及 13 种组织来源,包括胚胎发育、造血、神经发生和肿瘤发生等多个生物学过程。
  3. 这种广泛的覆盖将使这些领域的大量用户受益,使他们能够探索注释有细胞命运和基因表达的感兴趣细胞,这将帮助用户生成新的想法和假设。
  4. 计算方法可以预测实验或计算机模拟扰动后的细胞命运变化。
  5. 具有真实细胞谱系信息的 scLTdb 将成为用户评估现有方法和开发新的计算模型以预测细胞命运和推断谱系的重要资源。
Para_36
  1. 未来,我们计划对 scLTdb 进行如下扩展。我们将继续收集公开可用的单细胞谱系追踪(scLT)数据,以扩大 scLTdb 中涵盖的物种、组织和疾病范围。
  2. 此外,我们和我们的合作者正在进行 scLT 实验,并将在未来几年内持续更新网页上的数据。
  3. 由于单细胞谱系追踪是一个快速发展的领域,scLTdb 将整合下一代技术的数据,例如单细胞多组学谱系追踪和空间谱系追踪,并推出更多的分析模块。
  4. 总之,scLTdb 是一个独特的资源,用户可以利用它研究发育和疾病中的细胞命运决定、克隆行为和发育途径。

Data availability

Para_37
  1. scLTdb 可在 https://scltdb.com 免费获取。

Supplementary data

Para_38
  1. 补充数据可在 NAR 在线获取。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
课前准备---单细胞个性化分析梳理(R vs python)
追风少年i
2025/06/09
1340
课前准备---单细胞个性化分析梳理(R vs python)
课前准备---单细胞VDJ分析导论2
单细胞T细胞和B细胞抗原受体测序数据分析可以潜在地对适应性免疫细胞进行深入评估,从而为了解免疫细胞的发育提供信息,从而跟踪疾病和治疗中的克隆扩增。然而,由于数据的复杂性和潜在的生物学特性,在单细胞水平上分析和解释T细胞和B细胞及其适应性免疫受体谱一直是极具挑战性的。
追风少年i
2024/07/02
4090
课前准备---单细胞VDJ分析导论2
开源数据代码,学习如何通过单细胞多组学数据鉴定关键因子
◉ 研究设计和计算分析的示意图。3DG,三维基因组。◉ WNN 表示的单核 RNA 测序和单核 ATAC 测序数据投影到 UMAP 上,显示主要细胞类型。◉ 伴随的饼图展示了在主要协变量(性别、脑库、脑区、年龄组和细胞类型)中代表的细胞核比例。MSSM,西奈山医学院。◉ 基于最高平均表达量的前两个基因标记可视化其在主要细胞类型中的基因表达。◉ 主要细胞类型中基因表达与相应基因活性(由染色质可及性推导)之间的余弦相似度。◉ 使用方差分解方法分析协变量对基因表达(左,n = 16,661 基因)、染色质可及性(中,n = 181,432 峰值)和细胞类型组成(右,n = 10 种细胞类型)的解释方差。在每个小提琴图中,中心线表示中位数,箱子表示四分位距(IQR),而须线表示在 1.5× IQR 范围内的最高/最低值。超出第一和第三四分位数 1.5 倍 IQR 的点被视为异常值。
生信菜鸟团
2025/04/04
1170
开源数据代码,学习如何通过单细胞多组学数据鉴定关键因子
经典的文章要反复读--单细胞测序和CODEX绘制人骨髓的组成和空间结构
骨髓是一个复杂的器官,包含了来自造血、间充质、内皮、血管平滑肌和神经谱系的多种细胞。相对稀有的非造血细胞被认为在造血过程中起着关键作用。包括内皮细胞(ECs)、间充质基质细胞(MSCs)和成骨细胞在内的多种非造血细胞类型被认为是骨髓微环境的重要组成部分。近年来,单细胞 RNA 测序(scRNA-seq)的技术进步揭示了小鼠中这些非造血骨髓成分的多个亚群的存在。尽管对人类造血细胞的研究已相当广泛,但关于定义构成人类骨髓微环境的非造血细胞的类似研究仍相对匮乏。定义骨髓微环境中单细胞的组成一直受到分离足够数量的可存活非造血细胞的挑战的限制,这些细胞在骨髓细胞总量中占比不到 0.5%。此外,特定的细胞分离方法可能极大地影响所捕获的细胞类型的多样性,如在小鼠中所示。骨髓抽吸类似于冲洗小鼠骨头,无法捕获紧密粘附在骨表面的细胞,可能会使骨髓 MSC 成分偏向脂肪细胞而非成骨细胞。许多人类 MSC 的分析都是在这种抽吸样本上进行的,确实得到了主要是脂肪生成的 MSCs。其他人类 MSC 的分析是在体外扩增一段时间后进行的,这可能会改变 MSC 的转录谱,使其与在体内的稳态状态不同。此外,大多数上述分析缺乏这些微环境细胞的空间信息,尚不清楚是否存在具有不同空间组织的人类 MSC 亚型。
生信大杂烩
2025/05/29
1160
经典的文章要反复读--单细胞测序和CODEX绘制人骨髓的组成和空间结构
单细胞谱系分析重建人类肺末梢祖细胞分化过程
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
生信技能树jimmy
2020/03/30
9200
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
- 图片说明- 点图显示了基于PubMed搜索的每种人类基因的出版物总数。统计包括在摘要或正文文本中出现基因符号的已发表文章。该图的代码由M. Hirshey提供。
生信菜鸟团
2025/02/20
1530
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
2023NAR数据库特刊:单细胞数据库合辑
今年1月2023 Nucleic Acids Research Database Issue上线,包含178 篇涉及生物学和相关领域的论文:其中90篇论文报告了新数据库;82篇更新了该期先前发表的资源;6篇提供了最近在其他期刊发表的数据库的更新。
尐尐呅
2023/02/23
9610
2023NAR数据库特刊:单细胞数据库合辑
如何用单细胞研究癌症起源的单克隆与多克隆问题,提供详细原始代码
生信菜鸟团
2024/12/20
2570
如何用单细胞研究癌症起源的单克隆与多克隆问题,提供详细原始代码
Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架
本文介绍由同济大学控制科学与工程系的洪奕光和中国科学院数学与系统科学研究院的万林共同通讯发表在 Nature Communications 的研究成果:单细胞数据集成可以提供细胞的全面分子视图。然而,如何整合异质性单细胞多组学以及空间分辨的转录组学数据仍然是一个重大挑战。为此,作者提出了uniPort,这是一种结合耦合变分自动编码器(coupled-VAE)和小批量不平衡最优传输(Minibatch-UOT)的统一单细胞数据集成框架。它利用高度可变的通用基因和数据集特异性基因进行集成,以处理数据集之间的异质性,并可扩展到大规模数据集。uniPort 将异质性单细胞多组学数据集嵌入到共享的潜在空间。它还可以进一步构建一个用于跨数据集基因插补的参考图谱。同时,uniPort提供了一个灵活的标签传输框架,以使用最优传输计划去卷积异构的空间转录组数据,而不是嵌入潜在空间。作者通过应用uniPort集成多种数据集,包括单细胞转录组学、染色质可及性和空间分辨转录组学数据,从而证明了uniPort的能力。
DrugAI
2023/02/13
7350
Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架
单细胞 | 人类单细胞数据的机器学习模型中的偏差
◉ 社会偏见源于医疗系统中的结构性不平等。◉ 临床偏见源于临床数据收集和处理中的一致性问题,这引入了变异性。◉ 队列偏见源于队列构成的偏差,包括人口统计学和临床多样性。◉ 单细胞测序偏见源于技术限制和测序方法的变异性,影响数据质量。◉ 机器学习偏见源于算法和模型参数的选择,这可能产生或放大偏见。◉ 最后,结果解释偏见源于灵活的可视化和解释工具,这些工具持续或强化偏见结论,影响下游的科学和临床见解。
生信菜鸟团
2025/04/18
920
单细胞 | 人类单细胞数据的机器学习模型中的偏差
21天精通单细胞数据分析Day01: 单细胞测序简介 (内附 62 页精美 PPT)
从今天开始,用 21 天精通单细胞数据分析。我们将理论联系实际,边学边练,本文先从理论开始。
简说基因
2024/05/30
5240
21天精通单细胞数据分析Day01: 单细胞测序简介 (内附 62 页精美 PPT)
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
看到隔壁《单细胞天地》公众号翻译了一个最新的单细胞数据处理综述,很精彩,所以申请转载到生信技能树平台以飨读者:
生信技能树
2020/05/14
2.7K0
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
细胞图谱 | Nature | 单细胞整合揭示炎症性肠病中的化生现象
生信菜鸟团
2025/01/02
3730
细胞图谱 | Nature | 单细胞整合揭示炎症性肠病中的化生现象
热点综述 | Nature Methods:利用空间组学和多路成像技术探索癌症生物学
了解肿瘤异质性——肿瘤内细胞间的分子变异——有望解决癌症生物学中的突出问题,并改善特定癌症亚型的诊断和治疗。近日,来自澳大利亚的科研团队在《Nature Methods》发表综述文章,总结了空间技术在肿瘤研究中的应用,并讨论了目前的方法和未来的机会,以计算整合这些模式实现对肿瘤生物学的综合评估。
尐尐呅
2021/08/31
1.5K0
热点综述 | Nature Methods:利用空间组学和多路成像技术探索癌症生物学
细胞图谱 | Nature | 人类胚胎骨骼发育的多组学图谱
生信菜鸟团
2024/12/27
3460
细胞图谱 | Nature | 人类胚胎骨骼发育的多组学图谱
数据库 | scImmOmics:一个人工编纂的单细胞多组学免疫数据资源
◉ 图1。平台内容和构建。scImmOmics 手动收集了大量具有已知细胞标签的单细胞免疫多组学数据。◉ 其中包括捕捉每个细胞多种模式的数据集,包括‘ECCITE-seq + scTCR-seq + scBCR-seq’、‘scRNA-seq + scTCR-seq + scATAC-seq’、‘scRNA-seq + scTCR-seq + scBCR-seq’、‘CITE-seq + scTCR-seq’ 和 ‘scRNA-seq + scTCR-seq’。◉ 例如,‘scRNA-seq + scTCR-seq + scBCR-seq’ 表示捕捉每个细胞三种模式(scRNA-seq、scTCR-seq 和 scBCR-seq)的数据集,使人们能够更全面地理解个体细胞中的转录调控、免疫受体多样性和表观遗传特征。◉ scImmOmics 支持浏览、搜索、分析、可视化和下载与免疫相关的信息。
生信菜鸟团
2025/05/09
650
数据库 | scImmOmics:一个人工编纂的单细胞多组学免疫数据资源
提供180Mb的细胞图谱代码,Nature发的一个时间序列空间多组学细胞参考图谱研究
生信菜鸟团
2024/12/05
2200
提供180Mb的细胞图谱代码,Nature发的一个时间序列空间多组学细胞参考图谱研究
单细胞时代 || 细胞身份概念的演变
The evolving concept of cell identity in the single cell era
生信技能树jimmy
2021/03/10
1.3K0
单细胞时代 || 细胞身份概念的演变
单细胞转录组的时间序列数据分析
单细胞转录组数据分析在阐述多细胞生物发育与疾病进程方面已经开发了多种新的方法,如比较有名的轨迹推断(TI,trajectory inference)。但是,我们知道,各种轨迹推断方法只是一种利用表达量的排序手段而已,而且严重依赖先验的知识,如根节点的选择。有没有一种技术可以真正的在RNA转录的时候为转录的RNA打上时间的标签呢?
生信技能树jimmy
2021/10/09
1.9K0
Nature | 单细胞CAR-T图谱揭示了8年白血病缓解中的2型功能
生信菜鸟团
2024/11/23
2870
Nature | 单细胞CAR-T图谱揭示了8年白血病缓解中的2型功能
推荐阅读
课前准备---单细胞个性化分析梳理(R vs python)
1340
课前准备---单细胞VDJ分析导论2
4090
开源数据代码,学习如何通过单细胞多组学数据鉴定关键因子
1170
经典的文章要反复读--单细胞测序和CODEX绘制人骨髓的组成和空间结构
1160
单细胞谱系分析重建人类肺末梢祖细胞分化过程
9200
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
1530
2023NAR数据库特刊:单细胞数据库合辑
9610
如何用单细胞研究癌症起源的单克隆与多克隆问题,提供详细原始代码
2570
Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架
7350
单细胞 | 人类单细胞数据的机器学习模型中的偏差
920
21天精通单细胞数据分析Day01: 单细胞测序简介 (内附 62 页精美 PPT)
5240
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
2.7K0
细胞图谱 | Nature | 单细胞整合揭示炎症性肠病中的化生现象
3730
热点综述 | Nature Methods:利用空间组学和多路成像技术探索癌症生物学
1.5K0
细胞图谱 | Nature | 人类胚胎骨骼发育的多组学图谱
3460
数据库 | scImmOmics:一个人工编纂的单细胞多组学免疫数据资源
650
提供180Mb的细胞图谱代码,Nature发的一个时间序列空间多组学细胞参考图谱研究
2200
单细胞时代 || 细胞身份概念的演变
1.3K0
单细胞转录组的时间序列数据分析
1.9K0
Nature | 单细胞CAR-T图谱揭示了8年白血病缓解中的2型功能
2870
相关推荐
课前准备---单细胞个性化分析梳理(R vs python)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档