前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >生信程序 | NatMethods | scMultiSim:专用于单细胞多模态数据模拟

生信程序 | NatMethods | scMultiSim:专用于单细胞多模态数据模拟

作者头像
生信菜鸟团
发布于 2025-05-17 04:59:47
发布于 2025-05-17 04:59:47
1160
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:scMultiSim: simulation of single-cell multi-omics and spatial data guided by gene regulatory networks and cell–cell interactions
  • 中文标题:scMultiSim:由基因调控网络和细胞间相互作用引导的单细胞多组学和空间数据模拟
  • 发表日期:17 April 2025
  • 文章类型:Article
  • 所属期刊:Nature Methods
  • 文章作者:Hechen Li | Xiuwei Zhang
  • 文章链接:https://www.nature.com/articles/s41592-025-02651-0

Abstract

Para_01
  1. 模拟的单细胞数据在缺乏实验真实数据的情况下对于设计和评估计算方法至关重要。
  2. 在这里,我们介绍了 scMultiSim,这是一个全面的模拟器,能够生成包含基因表达、染色质可及性、RNA 速度和空间细胞位置的多模态单细胞数据,同时考虑各模态之间的关系。
  3. 与专注于有限生物因素的现有工具不同,scMultiSim 同时建模细胞身份、基因调控网络、细胞间相互作用和染色质可及性,并结合技术噪声。
  4. 此外,它允许用户轻松调整每个因素的影响。
  5. 在这里,我们展示了 scMultiSim 生成的数据具有预期的生物学效应,并通过基准测试广泛计算任务来证明其应用,包括多模态和多批次数据整合、RNA 速度估计、基因调控网络推断以及基于空间分辨基因表达数据的细胞间相互作用推断。
  6. 与现有模拟器相比,scMultiSim 可以对更广泛的现有计算问题进行基准测试,甚至可以处理新的潜在任务。

Main

Para_01
  1. 近年来,对单细胞转录组和其他模式(多组学)进行分析的技术在我们对细胞机制的理解方面取得了显著进展。
  2. 例如,这些技术使得染色质可及性和基因表达数据的联合分析成为可能,同时可以使用基于成像的或基于测序的技术测量细胞的空间位置。
Para_02
  1. 单细胞多组学数据的出现促进了对细胞状态更全面的理解,并且更重要的是,使研究人员能够探索不同模态之间的关系以及跨层级的因果关系。
  2. 在单细胞多组学数据可用之前,基因调控网络(GRN)推断方法仅使用单细胞RNA测序(scRNA-seq)数据开发出来。
  3. 然而,这些方法主要关注转录因子(TFs)作为影响基因表达的唯一因素。
  4. 实际上,观察到的基因表达数据受到多种因素的影响,例如相应区域的染色质可及性。
  5. 因此,开发了利用scRNA-seq和单细胞转座酶可及性染色质测序(scATAC-seq)数据的新方法来推断GRN。
  6. 同样,其他利用多模态信息的计算工具的开发也迅速增加。
  7. 例如,细胞间相互作用(CCI)推断方法试图利用基因表达和空间位置模态来学习相互作用,其假阳性率低于仅使用scRNA-seq数据的方法。
  8. 数据整合方法将多组学数据结合,以获得细胞的全面视图。
  9. 此外,可以使用scRNA-seq数据中的未剪接和剪接计数推断RNA速度,以指示每个细胞的近未来状态。
  10. 最近,也提出了从共同分析的染色质可及性和转录组数据中推断RNA速度的方法。
Para_03
  1. 已经开发了许多计算方法,这些方法使用scRNA-seq数据或单细胞多组学和空间组学数据。
  2. 然而,实验数据中真实情况的缺乏使得评估所提出的计算方法的性能变得困难。
  3. 为了解决这个问题,从头开始的模拟器被广泛用于通过生成模拟生物机制的数据并提供基准测试的真实情况来评估计算方法的准确性。
  4. 例如,SymSim22提供了真实情况的细胞身份和基因身份,因此可以用于聚类、轨迹推断和差异表达检测的基准测试。
  5. SERGIO23、BEELINE8和dyngen24可以模拟具有给定真实情况的GRNs的scRNA-seq数据,以测试GRN推断方法,而SERGIO、dyngen和VeloSim25可以提供真实情况的RNA速度,以测试RNA速度推断方法。
  6. mistyR26从给定的CCI网络生成单细胞基因表达数据,并可以测试推断细胞类型之间CCI的方法。
  7. 借助从头开始的模拟器,用户可以轻松控制输入参数并获得精确的真实情况。
  8. 除了从头开始的模拟器,Crowell等人27讨论了另一种单细胞数据模拟器类别,即基于参考的方法,这些方法从给定的真实数据集中学习生成模型并生成合成数据。
  9. 根据设计,这些方法可以输出模仿输入参考数据集的数据集,但它们的灵活性可能受到参考数据集可用性的限制,提取像GRNs、CCI或RNA速度这样的真实情况信息仍然是这些模拟器的挑战。
Para_04
  1. 我们认为,一个理想的单细胞模拟器应满足多个标准:(1) 它应尽可能生成多种模态以最好地代表一个细胞;(2) 它应尽可能模拟影响输出数据的生物因素和机制,从而使输出数据具有现实的复杂性;以及(3) 它应提供生物因素的真实情况,以对各种计算方法进行基准测试。
  2. 大多数现有的模拟器仅生成scRNA-seq数据,有些仅生成scATAC-seq数据。
  3. 在少数能够生成多种模态的模拟器中,dyngen和SERGIO输出未剪接和剪接的计数,并带有真实RNA速度,而基于参考的模拟器scDesign3可以生成两种高维模态(例如scRNA-seq和DNA甲基化数据)或一种高维模态(例如scRNA-seq)和空间位置数据,具体取决于输入的参考数据集。
Para_05
  1. 在模拟器中建模的生物因素方面,现有的从头模拟器通常只建模影响细胞基因表达的以下生物因素之一或一小部分:细胞身份(聚类标签或细胞轨迹上的位置)、染色质可及性、GRNs 和 CCI(补充表 1)。
  2. 基于参考的模拟器生成的数据可以内在地具有这些效应,但获得生物因素的真实情况是具有挑战性的,这使得衡量计算方法的准确性变得困难。
Para_06
  1. 本文中,我们提出了 scMultiSim,这是一个统一的框架,将上述所有生物因素以及技术变化(包括测序噪声和批次效应)进行建模。
  2. 对于每个单细胞,它输出以下模态:未剪接和已剪接的 mRNA 计数、染色质可及性和空间位置,同时考虑跨模态关系(图 1a)。
  3. ‘染色质可及性’既是输出模态(也称为 scATAC-seq 模态),也是影响其他输出数据的生物因素(它影响基因表达模态)。

Fig. 1: Overview of scMultiSim.

- 图片说明

◉ 输入、输出和用例。所需的最小输入是一个描述细胞类型分化关系的细胞分化树。它控制输出中的细胞轨迹或聚类。建议用户提供真实存在的GRN来指导模拟。用户也可以为CCI提供真实数据,并通过各种参数控制每个模拟的生物学效应。◉ scMultiSim的整体结构。scATAC-seq数据(iv)首先使用CIFs(i)和RIVs(iii)生成。用于生成scRNA-seq数据(vi)的动力学参数使用GIVs(ii)、CIFs(i)和带有区域到基因矩阵(v)的scATAC-seq数据进行准备。使用这些参数,当需要RNA速度时将使用完整的动力学模型,当运行速度更重要时将使用beta-Poisson模型来生成scRNA-seq数据(vii)。当启用CCI时,scMultiSim采用一种多步骤方法,同时考虑时间和空间(viii)。通过模拟的真实计数(ix),可以添加技术噪声和批次效应以获得观察到的计数(x)。◉ ,

Para_07
  1. scMultiSim 提供了细胞身份(按细胞群体而言)、RNA 速度、基因调控网络(GRNs)和细胞间相互作用(CCI)的地面真实信息,以及染色质可及性与转录组数据之间的关系。因此,通过一个数据集,它可以用于评估各种计算任务的方法,包括聚类或轨迹推断、多模态和多批次数据整合(镶嵌整合)、RNA 速度估计、GRN 推断和 CCI 推断(图 1a)。
  2. 我们展示了 scMultiSim 可以用于测试无法通过现有模拟器进行基准测试的方法,包括用于镶嵌整合的方法、使用多组学数据进行 GRN 推断的方法,以及单细胞之间的 CCI 推断方法;对于已有基准测试工作的计算任务(仅使用 scRNA-seq 数据进行 GRN 推断、聚类、轨迹推断和 RNA 速度),我们获得了总体一致的结果或新的见解。
  3. 此外,scMultiSim 允许用户调整每个生物因素对输出数据的影响,使他们能够研究在评估特定任务的方法时,每个因素如何影响方法的性能。
  4. 根据我们的评估,scMultiSim 看起来是目前可用于基准测试应用的最通用的模拟器之一(补充表 1)。

Results

Para_01
  1. 我们首先对 scMultiSim 的核心概念和模拟过程进行了简要概述。
  2. 然后,我们通过验证每个因素对输出数据的影响,展示了其同时模拟多种生物因素的能力。
  3. 最后,我们通过使用 scMultiSim 来基准测试各种计算工具,突出了 scMultiSim 的应用。

scMultiSim overview

scMultiSim 概述

The kinetic model and control of intrinsic noise

内在噪声的动力学模型与控制

Para_01
  1. 一般来说,scMultiSim在两个阶段进行模拟(图1b)。
  2. 在第一阶段,scMultiSim使用广泛接受的动力学模型31来生成细胞中的真实基因表达水平(‘真实计数’)。
  3. 在第二阶段,scMultiSim引入技术变异(文库制备噪声、批次效应),并生成与真实数据统计上可比较的scRNA-seq和scATAC-seq数据(‘观测计数’)。
  4. 为了建模细胞异质性和基因调控效应,scMultiSim引入了两个主要概念:细胞身份因子(CIFs)和基因身份向量(GIVs;图1b(i,ii))。
  5. 生物因素,包括细胞群体(细胞身份)、GRNs和CCI效应,被编码在CIFs和GIVs中(图2a)。
  6. 此外,为了建模单细胞染色质可及性,我们还引入了区域身份向量(RIVs;图1b(iii))。
  7. 关于CIFs、GIVs和RIVs的更多细节将在下一节和方法部分中提供。

Fig. 2: scMultiSim generates multimodal single-cell data from a predefined cell clustering structure or trajectory.

- 图片说明

◉ a,CIF和GIV矩阵。我们通过将CIF和GIV矩阵相乘,得到每个动力学参数的细胞×基因矩阵。CIF和GIV被划分为段,以编码不同的生物效应,其中每一段编码某种类型的生物因子。细胞异质性在CIF中建模,调控效应则在相应的GIV中编码。◉ (viii)展示了我们模型中CCI和胞内GRN的示意图。◉ (ix)显示了表示细胞空间位置的网格系统。一个细胞最多有四个邻居(标记为1–4),位于一定范围内(蓝色圆圈)。右下角的细胞不是中心细胞的邻居。◉ b,scMultiSim提供了三棵树,并用于生成数据集。Phyla1是一个线性轨迹,而Phyla3和Phyla5分别有三个和五个叶。◉ c,主数据集MT3a(连续种群遵循树Phyla3)中配对的scRNA-seq和scATAC-seq数据(不添加技术噪声)的t-SNE可视化,两者都有ncell = ngene = 500。◉ d,主数据集MD3a和MD9a(离散种群,具有五个聚类,遵循树Phyla5)中配对的scRNA-seq和scATAC-seq数据(不添加技术噪声)的t-SNE可视化。◉ e,额外结果展示了使用数据集A的σi和rd的影响。◉ f,探索ATAC效应参数Ea的额外结果,使用数据集A(n = 54)。中心线表示中位数,箱体表示下四分位数(Q1)和上四分位数(Q3),须线表示1.5倍的四分位距(IQR)。从144个数据集中,使用不同参数(σi、σcif、rd、连续/离散)计算受影响基因的scATAC-seq和scRNA-seq数据之间的平均Spearman相关性。◉ 来源数据。

Para_02
  1. 在模拟单细胞基因表达数据时,scMultiSim 使用一个包含三个主要参数的动能模型,即 kon、koff 和 s,以确定基因在细胞中的表达模式(图 1b(vi)),遵循 SymSim22(方法部分)。
  2. 动能参数 kon、koff 和 s 是从 CIF 和 GIV 以及相应的 scATAC-seq 数据中计算得出的(因为染色质可及性被认为会影响基因表达)。
  3. 由于 GIVs 和 CIFs 编码了细胞身份、GRNs 和 CCI 的信息,因此这些动能参数从而捕捉了影响基因表达的四个生物学因素:细胞身份、染色质可及性、GRNs 和 CCI。
Para_03
  1. scMultiSim中使用的动力学模型提供了两种从参数生成真实计数的模式,如图1b(vii)所示。
  2. 第一种模式是‘完整动力学模型’,其中基因随时间经历多次‘开启/关闭’状态的变化,并生成剪接/未剪接RNA的计数。这种模式提供了真实的RNA速度(方法)。
  3. 第二种模式是beta-Poisson模型,这等同于动力学模型的主方程,并且比完整动力学模型运行得更快(方法)。
  4. scMultiSim还引入了一个内在噪声参数σi,该参数控制由转录爆发和单细胞RNA测序数据的快照特性引起的内在噪声量(方法)。
  5. 此参数使用户能够研究内在噪声对计算方法性能的影响。
Modeling cellular heterogeneity and various biological effects

模拟细胞异质性和各种生物效应

Para_01
  1. CIFs 和 GIVs 的设计使 scMultiSim 能够将细胞身份和基因层面的机制(如 GRNs 和 CCI)编码为动力学参数,从而影响基因表达水平。
  2. 这种设计还提供了简便的方法来调整每个因素对输出基因表达数据的影响。
Para_02
  1. 细胞的CIF是一个一维向量,表示各种影响细胞异质性的生物因素,例如细胞状态(例如,处理过或未处理过)或关键转录因子的表达。
  2. 基因的GIV作为对应因素在CIF中的权重,表示对应CIF对基因表达的影响程度(图2a和方法部分)。
  3. 因此,通过将CIF(ncell × ncif)矩阵和GIV(ncif × ngene)矩阵相乘,scMultiSim生成一个ncell × ngene矩阵,这是包含细胞和基因因素编码的所需动力学参数矩阵。
Para_03
  1. 每个CIF向量和GIV都由四个部分组成,每个部分代表一种类型的外在变异。它们编码了包括细胞身份(细胞群体,即潜在的细胞轨迹或聚类)、GRNs和CCI在内的生物因素(图2a和扩展数据图1a,b)。这些四个部分在方法中进行了描述。
Simulating spatial data

模拟空间数据

Para_01
  1. 如果指定生成包含细胞空间位置和CCI效应的时空单细胞基因表达数据,scMultiSim会采用一种多步骤方法,同时考虑时间和空间(图1b(viii)和扩展数据图1c)。
  2. 该模拟由一系列步骤组成,每个步骤代表一个时间点。
  3. 细胞被放置在一个网格中(图2a(ix)和扩展数据图1d),并在每个步骤中添加一个细胞,代表新生细胞。
  4. 用户可以使用参数pn控制新生细胞与同类型细胞定位的概率(方法部分)。
  5. scMultiSim可以输出具有不同细胞类型布局和空间域的空间数据。
  6. 有关此内容的进一步讨论以及模拟具有CCI效应的空间数据所需输入信息,请参见方法部分。
Technical variations and batch effects

技术差异和批次效应

Para_01
  1. 上述步骤属于第一阶段,该阶段在细胞中生成‘真实’的mRNA计数(如果启用了RNA速度模式,则包括未剪接的计数)。
  2. 在第二阶段,scMultiSim模拟湿实验中的关键实验步骤,这些步骤会导致数据中的技术噪声,并输出观察到的单细胞RNA测序数据(图1b;阶段2)。
  3. 可以添加批次效应以模拟来自用户指定数量批次的数据集。
  4. 用户还可以控制批次之间的技术噪声和批次效应的程度。
  5. 这些程序在方法部分中有描述。
The overall simulation process

整体模拟过程

Para_01
  1. 图1b展示了模拟过程的总体情况。
  2. 首先生成scATAC-seq数据(图1b(iv)),因为我们认为细胞的染色质可及性会影响其基因表达。
  3. scATAC-seq数据还遵循由输入细胞分化树表示的预定义聚类或轨迹结构。
  4. 生成scATAC-seq数据的细节包含在方法部分中。
  5. scATAC-seq数据通过kon参数影响scRNA-seq数据,因为染色质可及性控制基因的激活状态(方法)。
  6. 在确定控制特定基因的染色质区域时,考虑了TF-motif矩阵和真实的GRN(方法)。
  7. 在获得所有动力学参数后,可以以不同模式生成scRNA-seq数据:是否包含CCI和空间位置,以及是否输出RNA速度数据(图1b(vii, viii))。
  8. 最后,将技术噪声和批次效应添加到第一阶段生成的‘真实计数’中。
  9. 接下来,我们展示scMultiSim的各种输出,并验证模拟数据中存在的效果。

Design of simulation and datasets

模拟与数据集的设计

Para_01
  1. 我们使用scMultiSim生成了一套全面的数据集,以展示不同参数配置的效果,并对计算方法进行基准测试。
  2. 这些数据集包含‘主要’和‘辅助’数据集。
  3. ‘主要’数据集包含scMultiSim可以模拟的所有效应:GRN、染色质可及性、CCI、技术噪声和批次效应。
  4. 这些主要数据集由144个不同重要参数配置的数据集组成,包括σcif(控制CIF的标准差,影响细胞之间的簇内或邻域内异质性)、细胞数(ncell)和基因数(ngene),以及三种不同的细胞群体结构(补充表2)。
  5. 因此,这144个主要数据集涵盖了广泛的参数,包括不同数量的细胞、基因和轨迹形状,以最小化潜在偏差,并为计算方法提供更全面的基准。
Para_02
  1. 如补充表2所示,我们以以下格式对主要数据集进行了标记:M{p"}{c"}{s"}。字母M表示主要数据集,后面跟着的字母p ∈ {L, T, D"},分别指定细胞群体为线性轨迹、树状轨迹或离散型。数字c ∈ [1, 12]表示σcif、ncell和ngene的一个特定配置,而最后一个小写字母s ∈ {a, b, c, d"}表示四个随机种子。例如,数据集MD5c具有离散型细胞群体,σcif = 0.1,800个细胞,200个基因和随机种子3。
  2. ,
Para_03
  1. 辅助数据集包含较少的影响因素,用于研究特定参数对计算方法的影响,如补充表3所示。
  2. 在其余部分,主数据集作为主要的基准测试工具,而辅助数据集提供补充分析。

Generating multimodal data from predefined cell structures

从预定义的细胞结构生成多模态数据

Para_01
  1. scMultiSim 的一个关键优势是生成用户可控轨迹或聚类形状的耦合单细胞 RNA 测序和单细胞 ATAC 测序数据。
  2. 用户可以通过输入定义细胞轨迹(连续)或聚类关系(离散)的分化树来生成"连续"或"离散"的种群。
  3. scMultiSim 提供了三个示例树:Phyla1、Phyla3 和 Phyla5,分别具有一个、三个和五个叶节点,如图 2b 所示。
  4. 这些树被用来模拟主要数据集(补充表 2)。
Para_02
  1. 三个参数控制种群结构的清晰度:内在噪声σi,CIF标准差σcif和差异性到非差异性CIF的比率rd(图2c–e)。
  2. 使用Phyla3生成的数据集MT3a在连续种群的两种模式中都表现出清晰的轨迹(图2c)。
  3. 对于离散种群,来自Phyla5的数据集MD3a和MD9a显示,较小的σcif值会产生更紧密、更易分离的聚类(图2d),因为它控制CIF的标准差。
  4. 使用辅助数据集A(补充表3),我们发现较小的rd值会创建更模糊的轨迹,具有更多的随机性,而较小的σi值会使轨迹更加明显(图2e)。
  5. 由于没有技术噪声,这些模式看起来比真实数据更干净,我们将在后面讨论这一点。
Coupling between scATAC-seq and scRNA-seq data

scATAC-seq 和 scRNA-seq 数据之间的关联

Para_01
  1. 在配对的scATAC-seq和scRNA-seq数据中,这两种数据模式并不是相互独立的,因为通常认为基因的表达水平受到相应区域染色质可及性的影响。
  2. 如果一个基因的相关区域是可及的,那么该基因更有可能被表达。
  3. 这种机制可以通过scMultiSim中的动力学参数kon进行自然建模(方法部分)。
Para_02
  1. 我们提供了一个用户可调节的参数,即ATAC效应Ea,用于控制scATAC-seq数据对kon的影响程度(范围从0到1)。
  2. 为了验证scATAC-seq和scRNA-seq数据之间的联系,我们计算了在scATAC-seq数据中由一个区域调控的基因在这两种模态之间的平均斯皮尔曼相关性。
  3. 在图2f中,我们展示了不同Ea值下的相关性。
  4. 使用默认的Ea = 0.5,可以观察到平均0.2–0.3的相关性,且随着Ea值的增加,相关性也有所提高。
  5. 这些结果表明,scMultiSim成功地模拟了scATAC-seq和scRNA-seq数据之间的联系,从而能够生成更真实的多组学数据集。
scMultiSim simulates technical noise and batch effects

scMultiSim 模拟技术噪声和批次效应

Para_01
  1. 图2c–f中显示的单细胞基因表达数据是真实的mRNA计数,没有技术噪声。
  2. scMultiSim可以向真实计数中添加包括批次效应在内的技术噪声,以获得观察到的计数(方法)。
  3. 技术噪声和批次效应的量可以通过参数进行调整;例如,参数Ebatch可用于控制批次效应的量。
  4. 用户还可以指定批次的数量。
Para_02
  1. 扩展数据图2a显示了数据集MD9a的观察到的mRNA计数(对应于图2d中的真实计数)。
  2. 左图显示了一个批次的数据,右图显示了两个批次的数据。
  3. 技术噪声和批次效应也被添加到了scATAC-seq矩阵中。
  4. 我们进一步使用辅助数据集A来展示scMultiSim在scRNA-seq和scATAC-seq模态中调整技术噪声和批次效应的能力,包括连续和离散种群(扩展数据图3)。
  5. 在这里,我们改变了技术噪声的一个主要参数α,它表示mRNA捕获效率,较低的α值表示数据集的检测能力较差。
scMultiSim generates spliced and unspliced mRNA data with ground-truth RNA velocity

scMultiSim 生成具有真实 RNA 速度的剪接和未剪接 mRNA 数据

Para_01
  1. 如果启用了RNA速度模拟,动力学模型将使用RNA剪接和降解速率输出速度真实值。
  2. 图2b中的Phyla5树用于生成扩展数据图2b中的结果。
  3. 这些结果展示了真实的剪接和未剪接计数,以及通过k最近邻(KNN)平均的地面真实RNA速度,可用于基准RNA速度估计方法。
  4. RNA速度向量遵循输入分化树指定的细胞轨迹。

Simulating data driven by GRNs and CCI

模拟由GRNs和CCI驱动的数据

Para_01
  1. scMultiSim的强度还在于其能够结合GRNs和CCI的影响,同时保持预定义的轨迹结构。
  2. 在本节中,我们展示了GRNs和CCI的影响都存在于模拟的表达数据中。
  3. 主要数据集(补充表2)使用了来自参考文献23的100基因GRN作为真实GRN,如图3a所示。
  4. 我们还通过在细胞内GRNs中添加跨细胞配体-受体对来结合CCI(图3a)。
  5. 接下来,我们使用一个数据集(MT3a,具有树状轨迹,500个基因,500个细胞,σcif = 0.1)详细检查模拟效果(图3b–e)。

Fig. 3: scMultiSim generates realistic single-cell gene expression data driven by GRNs and CCI.

- 图片说明

◉ a,用于生成主要数据集的GRN和CCI网络。红色节点是TF基因,绿色节点是配体基因。绿色边是在模拟CCI时添加的配体-受体对。◉ b–e,来自数据集MT3a的结果,该数据集使用Phyla3、500个基因、500个细胞和σcif = 0.1。◉ b,基因模块相关性热图。左侧或顶部的颜色表示基因的调控TF。由同一TF调控的基因具有更高的相关性,并倾向于被分组在一起。◉ c,特定TF-靶基因对(基因19-基因20)在一条谱系(Phyla3中的4-5-3)中所有细胞的对数转换表达。可以观察到TF和靶基因表达之间的相关性。TF基因19的染色质可及性水平从两个相应的染色质区域平均得出。当染色质关闭时,基因19的表达显著降低。◉ d,细胞的空间位置,其中每种颜色代表一种细胞类型。两个细胞之间的箭头表示它们之间存在特定配体-受体对(基因101-基因2)的CCI。默认情况下,大多数CCI效应发生在不同细胞类型之间。◉ e,基因表达相关性比较:(1) 具有CCI的相邻细胞,(2) 没有CCI的相邻细胞,以及(3) 非相邻细胞。具有CCI的细胞具有更高的相关性(n = 6;补充说明B)。◉ f,顶部,带有空间域真实值的模拟分层布局。底部,模拟的SVG。左侧,SVG在用户指定的条带中高度表达,在其他区域低表达。右侧,SVG的表达在二维空间中从左到右增加。使用了数据集D。◉ g,10x Multiome PBMCs数据集与模拟数据的比较(方法)。细胞数量为n = 2,939,基因数量为n = 1,000。对于所有箱形/小提琴图,中心线表示中位数,箱子表示下四分位数(Q1)和上四分位数(Q3),须线表示1.5倍的IQR。原始数据。

GRN-guided expression data

GRN引导的表达数据

Para_01
  1. 我们使用基因模块相关性热图(图3b)来说明MT3a数据集中的基因调控效应。
  2. 聚类热图是通过计算GRN中所有基因表达水平之间的成对Spearman相关性构建的。
  3. 热图顶部或左侧的每种颜色代表GRN中的一个转录因子及其靶基因。
  4. 该图显示,由同一转录因子调控的基因模块(相同颜色的基因)倾向于聚集在一起,并且彼此之间具有更高的相关性。
  5. 这些结果表明表达数据中存在GRN效应。
  6. 为了进一步说明调控效应,我们沿着一条谱系(Phyla3中的4-5-3;图3c)绘制了特定调节因子-靶基因对(基因19–20)的表达。
  7. 该图清楚地显示了调节因子和靶基因表达水平之间的相关性。
  8. 此外,当相关的染色质区域关闭时,基因19的表达显著下降,这为染色质可及性的调控效应提供了进一步的证据。
Cell spatial locations, spatial domains and SVGs

细胞空间位置、空间域和SVG

Para_01
  1. scMultiSim 提供了对细胞布局的灵活控制。
  2. 默认布局(图 3d)有一个参数,可以调整细胞类型的聚类紧密程度(扩展数据图 4a 和补充说明 A)。
  3. 它还提供了在空间转录组数据中常见的其他布局,例如"岛屿"和"层"(扩展数据图 4b)。
  4. 用户可以通过添加额外的 CIF 来自定义空间布局,并整合其他生物学效应,如空间可变基因(SVGs)(方法)。
  5. 它还可以模拟局部和远距离的 CCI 效应(方法)。
Para_02
  1. 为了展示这些功能,我们模拟了一个带有编码空间域和SVG的空间单细胞数据集(数据集D;补充表3)。
  2. 该数据集包含300个基因、500个细胞和4种细胞类型。
  3. 空间区域被划分为三个域,每个域中每种细胞类型都有预定义的概率(方法)。
  4. 图3f显示了生成的细胞类型和空间域的真实情况。
  5. 仅凭细胞类型无法清晰区分空间,这表明需要空间域检测方法。
  6. 因此,我们测试了两种空间域检测方法,STAGATE32和scHybridNMF33,展示了scMultiSim在基准测试空间域检测方法方面的潜力(扩展数据图4c)。
  7. STAGATE的表现优于scHybridNMF,调整后的兰德指数(ARI)为0.662,而后者为0.597。
Para_03
  1. 对于SVGs,我们为每个单元格添加了四个额外的CIF条目以编码布局信息。
  2. 如图3f所示,SVGs遵循定义的空间模式,表现出在空间上逐渐增加的表达或在定义区域内的高表达。
  3. 与SRTSim34相比,scMultiSim产生了类似的视觉结果,同时具有模拟区域高表达基因和表达逐渐变化的基因的优势。
Correlations between interacting ligands and receptors

相互作用配体与受体之间的相关性

Para_01
  1. scMultiSim 模拟单细胞之间以及细胞类型之间的细胞间相互作用。
  2. 用于推断细胞间相互作用效应的计算方法使用不同的评分函数。
  3. 一些方法假设相互作用的配体和受体应该具有相关表达(相关性效应),而另一些方法则假设它们应该具有高表达(高表达效应)。
  4. 现有的空间数据模拟器能够实现高表达效应,但没有包含相关性效应,这在模拟上更为复杂。
Para_02
  1. 我们通过比较(i)具有CCI的相邻细胞之间的表达水平相关性、(ii)不具有CCI的相邻细胞之间的表达水平相关性以及(iii)非相邻细胞之间的表达水平相关性,来验证scMultiSim模拟的相关性效应。
  2. 如图3e所示(使用数据集MT3a),具有CCI的细胞平均配对相关性为0.1,而没有CCI的细胞表现出接近零的相关性,这是预期的结果。
  3. 我们注意到,没有CCI效应的相邻细胞之间的相关性高于没有CCI效应的非相邻细胞之间的相关性,这可能是由于细胞分化的动态性质,其中细胞随时间推移演变为新的细胞类型,早期细胞类型涉及的CCI效应可能在最终步骤中仍然存在。

scMultiSim-simulated datasets match real data

scMultiSim-模拟数据集与真实数据匹配

Para_01
  1. 我们证明了scMultiSim输出的单细胞基因表达数据在统计上可以与真实数据相似。
  2. 我们选择了四个单细胞数据集,其中两个是配对的多模态数据集(10x Genomics Multiome数据集用于外周血单个核细胞(PBMCs)和ISSAC-seq37),另外两个是空间解析的基因表达数据集(MERFISH38和seqFISH+4,12)。
  3. 使用scMultiSim生成了模拟数据以匹配这些真实数据(方法)。
  4. 我们使用dyngen24和SERGIO23作为基线模拟器进行比较,因为它们也是从头开始的多模态模拟器,与scMultiSim共享一些功能(补充表1)。
  5. 我们还包含了一个基于参考的模拟器scDesign3(参考文献30),该模拟器旨在生成与真实数据分布相匹配的合成数据。
Para_02
  1. 对于单细胞基因表达模态,我们从以下属性方面将模拟数据与真实数据进行比较:文库大小、每细胞零计数、每基因零计数、每基因平均计数、每基因变异以及每基因零计数与平均计数的比率(图3g和扩展数据图5)。
  2. 图3g展示了模拟数据(补充表3中的数据集R)的结果,这些数据与10x Multiome PBMC数据集相匹配。
  3. 可以观察到,总体而言,scMultiSim在使用所显示的统计指标与真实数据的相似性方面接近scDesign3,而scMultiSim和SERGIO的表现优于dyngen。
  4. 真实数据中通常存在零计数与平均计数之间的负相关性,scMultiSim可以模拟这种关系,并与参考数据很好地匹配。
  5. 其他三个数据集也显示出类似的比较结果(扩展数据图5)。
  6. 当真实数据具有scATAC-seq模态时,生成的scATAC-seq数据也与真实数据相似。
  7. 我们还比较了模拟数据与10x Multiome PBMC数据集之间的基因-基因相关性和细胞-细胞相关性,其中scMultiSim能够捕捉与其他从头模拟器相当的相关性(补充说明E和F)。

Benchmarking computational methods using scMultiSim

使用 scMultiSim 评估计算方法

Para_01
  1. 我们接下来展示scMultiSim如何在单细胞基因组学的广泛计算任务中进行基准测试,包括镶嵌数据整合、使用单模态或多模态数据进行GRN推断、利用空间分辨的单细胞基因表达数据推断细胞类型与单细胞之间的CCI、聚类、轨迹推断和RNA速度估计。
  2. 我们对每个任务评估了多种方法,并检查了特定参数的影响。据我们所知,它是唯一能够对所有这些任务进行基准测试的模拟器。
  3. 我们的目标是说明其应用,而不是进行全面的基准测试,我们期望这些例子能激发研究人员探索scMultiSim的未来用途。

Benchmarking mosaic data integration methods

基准测试多源数据整合方法

Para_01
  1. 已经提出了一些计算方法,以整合来自多种模态和多个批次的单细胞基因组数据18(称为mosaic整合)。
  2. 我们对三种最近提出的可以整合来自多个批次和模态的数据矩阵的方法进行了基准测试:Seurat桥接整合(Seurat-bridge)39、UINMF40 和 Cobolt41。
  3. 我们使用了所有144个主要数据集来测试它们在不同类型的细胞群体下的性能。
  4. 每个主要数据集被分为三个批次(批次效应参数 Eb = 3),然后有意地丢弃批次2的scRNA-seq数据和批次3的scATAC-seq数据,以模拟某些批次中某些模态缺失的真实场景(图4a)。
  5. 图4b显示了其中一个数据集MT10a的t分布随机邻域嵌入(t-SNE)可视化结果。
  6. 我们使用以下指标来评估整合方法的性能:ARI和归一化互信息(NMI)作为聚类身份保留的指标,图连通性(GC)和平均轮廓宽度(ASW)作为批次混合的指标(方法)。
  7. 这些指标被用于一篇关于单细胞数据整合方法基准测试的近期论文中42。

Fig. 4: Benchmarking mosaic data integration methods.

- 图片说明

◉ 多模态数据整合的任务说明。仅使用了批次1和3(粉红色和蓝色矩阵)中的细胞进行评估。◉ 数据集MT10a的t-SNE可视化,细胞按细胞类型和批次身份着色。◉ 不同轨迹类型和σcif的mosaic数据整合方法的基准测试结果(n = 12)。使用的指标包括ARI、NMI(越高表示越能保留细胞身份)、批次的图连通性(GC)和ASW(越高表示批次合并效果越好)。对于所有箱形图/小提琴图,中心线表示中位数,箱体表示下四分位数(Q1)和上四分位数(Q3),须线表示1.5倍的IQR。◉ 源数据。

Para_02
  1. 由于Seurat-bridge不输出'bridge'数据集(图4a中的批次1)的潜在嵌入,仅使用了批次2和批次3的两个矩阵(图4a)进行评估。
  2. 我们观察到UINMF在所有四个测量指标中表现最佳(图4c)。
  3. Cobolt的ARI和NMI得分相对较低(与参考文献43中的结果一致),但Cobolt的批次混合得分优于Seurat-bridge。
  4. 当比较σcif = 0.1和σcif = 0.5的得分时,可以观察到较小的σcif值下细胞身份保留得分更高。
  5. 比较不同的细胞群体结构,我们发现连续群体('linear'和'tree')的ARI和NMI得分低于离散群体,这可能是因为这些指标更适合离散群体。
  6. 在包含3,000个细胞的大数据集上的进一步实验揭示了每种方法的不同行为(补充说明G)。

Benchmarking GRN inference methods using multimodal data

使用多模态数据对GRN推断方法进行基准测试

Para_01
  1. scMultiSim 使用单细胞基因表达数据(基于表达的)或单细胞多组学数据(多组学)对GRN推断方法进行系统性基准测试。
  2. 我们对之前研究中的11种基于表达的方法进行了基准测试,以及两种最近发表的多组学方法,即scMTNI和CellOracle。
  3. 我们使用AUROC(受试者工作特征曲线下的面积)和AUPRC比值(精确率-召回率曲线下的面积)来衡量推断准确性。
Para_02
  1. 我们在144个主要数据集(图5a)和辅助数据集G上测试了方法,该数据集具有线性轨迹且无CCI效应(图5b和方法)。
  2. 在数据集G中,我们使用真实计数和观测计数来评估每种方法对技术噪声的鲁棒性(图5b)。

Fig. 5: Benchmarking GRN inference methods.

- 图片说明

◉ a,GRN推断方法的基准测试(n = 144)。箱形图显示了AUPRC比率(相对于随机分类器)和AUROC值。在合理时间内(8小时)未完成的方法被排除。对于a和b中的AUPRC比率,仅使用表达数据的方法使用右侧的y轴,而多模态方法(CellOracle和scMTNI)由于性能差异巨大,使用左侧不同的y轴。对于这两种多模态方法,我们还比较了添加到基因-峰真实矩阵的不同噪声水平(0、0.01、0.1和0.5)(方法)。所有方法的直接比较可在扩展数据图6中找到。◉ b,使用不包含CCI效应的数据集G进行GRN推断方法的额外基准测试(n = 16)。我们还测试了在存在技术噪声的观测计数上的性能。对于所有箱形/小提琴图,中心线表示中位数,箱体表示下四分位数(Q1)和上四分位数(Q3),须线表示1.5倍的IQR。原始数据。

Para_03
  1. 在11种基于表达的GRN推断方法中,PIDC44总体表现最佳,尤其是在真实计数情况下,其次是GENIE3(参考文献45)和GRNBOOST2(参考文献46)。
  2. 观察到的计数中的技术噪声导致AUPRC比率和AUROC值下降。
  3. 尽管PIDC在观察到的计数中保持了最佳性能,但SINCERITIES47和PPCOR48表现出比GENIE3和GRNBOOST2更好的抗噪能力。
Para_04
  1. 值得注意的是,使用真实计数的方法排名(图5a、b)与之前使用四个生物注释模型的无删除数据的基准结果高度一致,验证了scMultiSim生成与基准测试能力相当的GRN引导表达数据的能力。
  2. 此外,通过增强的生物学复杂性,scMultiSim提供了新的见解:在主要数据集上的表现略低于辅助数据集,这比仅包含GRN效应的现有模拟器更能反映真实数据集的表现。
Para_05
  1. 尽管不同方法的性能有所差异,但即使使用真实计数,它们的整体AUPRC比率仍然不令人满意,部分原因是未考虑像染色质可及性这样的因素。
  2. 我们评估了两种整合染色质可及性信息的多组学GRN推断方法(scMTNI和CellOracle),这些方法通过从单细胞ATAC-seq或批量ATAC-seq数据中学习先验GRN网络来实现,使用的是‘转录因子按基序’和‘区域按基因’矩阵(方法)。
  3. 为了模拟这些矩阵通常存在噪声的真实世界条件,我们通过向scMultiSim的真实矩阵添加四种噪声水平(0、0.01、0.1和0.5)来测试CellOracle和scMTNI(方法、图5a,b和扩展数据图6)。
  4. ,
Para_06
  1. 正如预期的那样,尽管性能随着噪声水平的增加而下降,但两种多组学方法在AUPRC比率和AUROC值方面均优于11种基于表达的方法(图5a,b),这证明了染色质可及性数据在GRN推断中的价值。
  2. 然而,真实数据中非常高的噪声水平可能会限制这些改进。
  3. 我们还注意到,scMTNI的AUROC值更高,但AUPRC比率低于CellOracle(图5和扩展数据图6),这是由于网络的高稀疏性。
  4. 在此情况下,AUPRC比率更能准确反映不平衡数据的真实推断准确性。
  5. 总体而言,这些结果证明了scMultiSim在基准化GRN相关计算方法中的适用性,特别是多组学GRN推断,这些方法已被证明具有前景。

Benchmarking CCI inference methods

基准测试 CCI 推理方法

Para_01
  1. 空间分辨的单细胞基因表达数据为在单细胞水平上理解细胞过程、组织结构和疾病机制提供了强有力的工具。
  2. 已经提出了使用单细胞基因表达数据推断细胞间相互作用效应的方法,这些方法可以使用或不使用细胞的空间位置信息。
  3. 从scRNA-seq数据(不包含细胞空间位置信息)推断细胞间相互作用的方法之前已经被比较和评估。
  4. 虽然细胞的空间位置信息被认为可以大大帮助推断细胞间相互作用效应,但这类方法的定量准确性仍 largely 不清楚。
  5. SRTsim 和 mistyR 可以用于评估推断细胞类型之间细胞间相互作用效应的方法,但它们无法测试单细胞级别的细胞间相互作用推断方法,以及它们各自在模拟中讨论的局限性。
Para_02
  1. 使用 scMultiSim,可以评估使用空间分辨基因表达数据的单细胞级别和细胞类型级别的 CCI 推断方法。
  2. 我们使用了主数据集以及辅助数据集 C 和 S(补充表 3)来测试 CCI 推断方法,其中辅助数据集使用了与主数据集不同的真实 GRN 和 CCI 相互作用(扩展数据图 7a)。
  3. 对于细胞类型级别的方法,我们测试了 Giotto12、SpaOTsc14 和 SpaTalk13。
  4. 结果如图 6 和扩展数据图 7b 和 8a 所示,更多描述和讨论见补充说明 H。

Fig. 6: Benchmarking CCI inference methods.

- 图片说明

◉ 在主要数据集(n = 144)上对CCI推理方法进行基准测试。顶部为AUROC;底部为AUPRC。◉ 在数据集C(n = 12)上对CCI推理方法进行基准测试,包括SpaTalk(n = 8)。顶部为AUROC;底部为AUPRC。◉ 在数据集S(n = 8)上对单细胞级别的CCI推理方法进行基准测试。顶部为AUROC;底部为AUPRC。◉ 此任务的AUPRC比例基线为0.0012。◉ 对于所有箱形图/小提琴图,中间线表示中位数,箱子表示下四分位数(Q1)和上四分位数(Q3),须线表示1.5倍的IQR。

Para_03
  1. 在生物学中,细胞类型之间的CCI效应是通过单个细胞之间的CCI效应实现的。
  2. 然而,与细胞类型水平的CCI效应相比,推断单细胞水平的CCI效应的方法较少。
  3. 我们测试了两种可以推断单细胞水平CCI效应的方法,SpaOTsc和COMMOT15。
  4. 这两种方法都使用了最优传输框架,但SpaOTsc独立地推断每个配体-受体对的CCI效应,而COMMOT还建模了不同配体-受体对之间的竞争效应。
  5. 建模竞争效应的优势体现在COMMOT的优越性能上(图6c和扩展数据图8b;AUPRC和AUROC的计算方法在方法部分有描述)。
  6. 我们注意到这两种方法的AUPRC值都很低,这主要是由于单个细胞之间真实CCI效应的高稀疏性。
  7. 大多数AUPRC值仍然高于随机预测器的值,即0.0012。

Benchmarking classical tasks

基准测试经典任务

Para_01
  1. scMultiSim可以自然地对各种经典计算方法进行基准测试。
  2. 我们测试了其中三种:细胞聚类、轨迹推断和RNA速度估计,结果与先前的发现一致。

Discussion

Para_01
  1. 我们提出了scMultiSim,这是一个单细胞多组学数据模拟器,结合了包括细胞群体、染色质可及性、RNA速度、基因调控网络和空间细胞间相互作用效应在内的生物因素。
  2. 我们在生成的数据中展示了这些模拟因素,验证了跨模态关系,并通过各种计算基准测试展示了scMultiSim的通用性。
  3. 通过与之前工作的基准测试结果一致,验证了模拟的生物效应。
Para_02
  1. 与现有模拟器仅建模一两个生物因素不同,scMultiSim 生成的数据具有更高的生物复杂性,类似于真实数据。
  2. 这使得对实验数据的方法性能估计更加准确,并允许在相同数据集上评估不同的计算任务。
  3. 耦合的数据模式使多模态计算方法的基准测试成为可能,而此前这通常难以实现。
Para_03
  1. scMultiSim的模块化设计确保了可扩展性和通用性。
  2. 我们的CIF/GIV模型可以数学上表示各种生物机制,为用户提供接口以编码额外因素。
  3. 该模型可以扩展以适应更真实的场景,例如细胞特异的GRNs、scATAC-seq和scRNA-seq数据的不同轨迹以及不规则的聚类形状。
  4. 未来,该框架还可以扩展到其他模态,如蛋白质丰度数据。
  5. 提高生成大规模数据的效率也是未来的一个方向。
Para_04
  1. scMultiSim 的主要可用功能包括最小的输入需求(例如,只需要一个系统发育树文件)、透明的参数及其明确的效果以及 Shiny 应用程序界面。默认参数也对应多个真实数据集提供。
Para_05
  1. 和大多数计算工具一样,scMultiSim也有其自身的局限性。
  2. 作为一种从头模拟器,它模拟了已知在细胞中发生的关键生物学机制,并作为大多数计算方法建模的基础。
  3. 由于现有的知识和计算可行性限制,从头模拟器无法显式地模拟所有生物过程。
  4. 基准测试还应结合真实数据测试。
  5. 模拟数据可以提供概念验证评估,这是方法开发的基本步骤,可以帮助在受控环境中评估方法的性能,因此已被用于主要的基准测试中,同时使用了真实数据集以获得全面的评估。
Para_06
  1. 然而,scMultiSim通过在通用模型中编码多个因素,推动了单细胞基因组学模拟的发展,创建了一个全面的多模态模拟器,用于评估各种计算方法。
  2. 耦合的数据模态提供的信息比单一模态更丰富,这对于开发新的多组学和空间数据方法具有价值。

Methods

The beta-Poisson model and intrinsic noise

β-泊松模型和内在噪声

Para_01
  1. 在动力学模型中,基因可以在‘开启’和‘关闭’状态之间切换,kon 和 koff 分别表示变为‘开启’和‘关闭’的速率。
  2. 当基因处于‘开启’状态(可以解释为启动子激活)时,mRNA 以速率 s 合成,并以速率 d 降解。
  3. 通常会将 d 固定为 1,并使用其他三个参数的相对值。
Para_02
  1. 动力学模型的主方程表示在给定其动力学参数 kon、koff 和 s50 时,基因表达水平的稳态分布。
  2. β-Poisson 模型被证明与主方程等价,并且计算速度更快。
  3. 基因表达水平 x(也即 mRNA 数量)可以从公式(1)和(2)中的以下分布中采样。
Para_03
  1. 使用上述的beta-Poisson分布来生成基因表达水平是一种获取细胞中基因mRNA数量的方法。
  2. 如果只需要生成剪接后的mRNA数量,这种方法是可行的。
  3. 如果用户还需要生成未剪接的mRNA数量和RNA速度,则使用另一种方法——称为"完整动力学模型"。
  4. 当仅生成剪接后的数量以降低运行时间时,默认使用beta-Poisson模型。
Para_04
  1. 从beta-Poisson分布中采样得到x会引入固有噪声,这对应于由于转录爆发而在真实数据中产生的固有噪声。
  2. 动力学模型的理论均值为Math input error,这对应于没有固有噪声的基因表达水平。
  3. 我们引入了参数σi,通过调整方程(3)中来自泊松分布的随机样本与理论均值之间的权重来控制固有噪声。
Para_05
  1. 单细胞RNA测序数据中的固有噪声在实验中难以减少,这是由于单细胞RNA测序数据的快照性质。
  2. 参数σi使用户能够研究固有噪声对计算方法性能的影响。

CIFs and GIVs

CIFs 和 GIVs

Para_01
  1. CIF 和 GIV 向量各包含四个片段,编码包括细胞身份(潜在的细胞轨迹或聚类)、GRNs 和 CCI 效应在内的生物因素(图 2a 和扩展数据图 1a,b)。这些片段是:

[ol]- 1. Nondifferential CIFs (non-diff-CIF): Models inherent cellular heterogeneity by representing shared environmental factors across cells, sampled from a Gaussian distribution with standard deviation σcif. - 2. Differential CIFs (diff-CIF): Controls user-desired cell populations based on the cell differentiation tree input, determining cell types or trajectories. - 3. Transcription factor CIFs (tf-CIF): Controls GRN effects, with length equal to TF count. Together with the TF segment in GIV, models TF influence on gene expression, encoding the GRN. - 4. Ligand CIFs (lig-CIF): Controls CCI effects when enabled. Combined with the receptor gene’s ligand segment in GIV, encodes ground-truth CCI between cells, allowing multiple cell interactions (Fig. 2a(viii)).

Para_02
  1. CIF 和 GIV 的长度(ncif)是可调节的,其中 tf-CIF 和 lig-CIF 的长度是固定的(由输入网络决定),而 diff-CIF 和 non-diff-CIF 的长度由用户控制(默认总长度为 50)。
  2. 这形成了一个 ncell × ncif 的 CIF 矩阵和一个 ncif × ngene 的 GIV 矩阵(扩展数据图 1a,b)。
  3. CIF 编码‘细胞身份’,而 GIV 编码‘生物效应强度’。
  4. 它们的乘积得到一个 ncell × ngene 的动力学参数矩阵,每个细胞有三个 CIF 和 GIV 向量用于 kon、koff 和 s 参数。
Para_03
  1. Non-diff-CIF 从 (默认:)中采样。用户可以修改 CIF 或添加额外的 CIF 以进行自定义,从而实现条件特定的扰动(补充说明 C)和用户定义的生物效应,如空间变化(补充说明 D)。

diff-CIF generates user-controlled trajectories or clusters

diff-CIF 生成用户控制的轨迹或聚类

Para_01
  1. 当从多种细胞类型生成数据时,scMultiSim的最小用户输入是细胞分化树,该树控制输出中的细胞类型(对于离散种群)或轨迹(对于连续种群)。
  2. 生成的scRNA-seq和scATAC-seq数据通过diff-CIF向量反映树结构。
  3. diff-CIF向量的生成方式如下:从树的根部开始,对每个细胞沿树进行高斯随机游走(图2a),以生成ndiff−CIF维度的diff-CIF向量。
  4. 参数σcif控制随机游走的标准差;因此,较大的σcif会产生更松散和嘈杂的轨迹结构。
  5. 另一个参数rd用于控制diff-CIF与non-diff-CIF的相对数量。
  6. 当rd较大时,输出中的轨迹清晰且分明;当rd较小时,轨迹模糊,细胞种群的形状更多由其他因素如GRNs控制。
  7. 对于离散种群,仅使用树尖处的细胞类型;然后,每种类型的细胞通过高斯分布进行位移,由相同的σcif参数控制。
  8. 因此,较小的σcif会产生更清晰的聚类边界。
Para_02
  1. 对于异质性细胞群体,细胞有不同的发育阶段和类型。
  2. 用户应输入一个细胞分化树,其中每个节点代表一种细胞类型。
  3. 该树为细胞群体中的轨迹提供了骨干。
  4. diff-CIF 向量的每个维度通过高斯随机游走沿树进行采样。
  5. 首先,细胞从树的根部开始;然后,对于每个维度,所有细胞 v 的 diff-CIF 值由公式 (4) 给出。
Para_03
  1. σt 是细胞 t 与 t − 1 之间的树上距离。
  2. 或者,用户可以使用脉冲模型(使用 SymSim 中的实现)。
  3. scMultiSim 可以生成任何树结构,只要它可以用 R 生物进化树表示(图 2b–e 和补充图 8)。
  4. 该树允许用户定义簇之间的相对距离。
  5. 簇中心之间的距离与树中相应节点之间的距离成比例。
  6. 如果用户用一个‘超根’将多个树连接起来形成一个统一的树,scMultiSim 也可以模拟包含多个树的森林。
  7. 数据模拟完成后,用户可以移除连接超根和森林中各棵树根部的边上的细胞,以获得仅属于森林的细胞(补充图 8c)。
  8. ,
Para_04
  1. 非diff-CIF和diff-CIF向量的长度可以由用户控制。
  2. 更多的diff-CIF会使细胞群体的轨迹模式更清晰,这对应于输入的树状结构。
  3. 当diff-CIF很少时,细胞群体主要由GRN控制。
  4. 在实现中,我们为参数σcif = 0.1,rd = 0.9(ndiff-CIF = 45,nnon-diff-CIF = 5)设定了默认值,用户如需也可以更改这些参数。
  5. 总体而言,更高的rd和ndiff-CIF以及更低的σcif会导致具有更清晰聚类和轨迹模式的数据。

tf-CIFs and GIVs encode the GRN effects

tf-CIFs 和 GIVs 编码了 GRN 的效应

Para_01
  1. 为了在模拟的单细胞基因表达数据中编码GRN效应,GIVs和CIFs被设计为包含一个‘转录因子部分’(扩展数据图1a)。
  2. 细胞沿着给定的细胞分化树逐个生成,其中第t个细胞中转录因子的表达影响第t + 1个细胞的基因表达。
  3. 形式上,第t + 1个细胞的CIF中第i个位置(对应第i个转录因子)的值按公式(5)计算。

错误!!! - 待补充 错误!!! - 待补充

Para_04
  1. scMultiSim 还允许使用细胞特异的真值 GRNs。", "Sentence_02": "在此模式下,随机 GRN 边缘会沿着伪时间以用户控制的速度逐渐生成或删除。", "Sentence_03": "在模拟每个细胞时,tf-GIV 将被当前 GRN 效应矩阵填充。", "Sentence_04": "在此模式下,输出细胞特异的 GRN 真值。

lig-CIFs and GIVs encode CCI effects

lig-CIFs 和 GIVs 编码 CCI 效应

Para_01
  1. 在模拟具有CCI效应的空间转录组数据时,我们使用了一个二维k × k网格来模拟细胞的空间位置(扩展数据图1d)。
  2. 网格大小k足够大以容纳n个细胞(可以由用户指定;如果没有提供,默认使用细胞数量的250%)。
  3. 一个细胞最多可以有nnbs个具有CCI的邻居(在图2a的蓝色圆圈范围内,此半径可以调整)。
  4. 因此,配体-CIFs和GIVs的长度为nlig × nnbs,其中nlig是配体的数量。

错误!!! - 待补充

Para_03
  1. 为了在细胞类型层面和单细胞层面上生成真实标签的CCI效应,scMultiSim预定义了一个配体-受体数据库,由用户输入的m×3矩阵S表示。S的每一行对应总共m个配体-靶点对。
  2. 对于每个对i,有三个参数:配体基因Li、受体基因Ti和效应Ei,表示配体对受体表达的影响强度。
  3. 对于每对细胞类型,这些两种细胞类型之间的真实标签CCI是从配体-受体数据库中采样的(对应于S中的列)。
  4. 对于每对相互作用的细胞,它们之间的真实标签CCI效应遵循细胞类型层面的真实标签CCI效应:如果这两个细胞分别属于两种细胞类型C1和C2(C1可以与C2相同),那么这两个细胞之间的CCI效应遵循对应于对(C1, C2)的S中定义的CCI效应。
  5. 用户可以通过让每个细胞对使用从细胞类型层面真实标签中采样的配体-受体对的一个子集,进一步对每个细胞对进行细粒度控制。

Generating spatial data with different layouts

使用不同布局生成空间数据

Para_01
  1. 由于实验数据无法测量细胞在先前时间点的状态,scMultiSim仅输出最终时间点的细胞数据,该数据包含了细胞发育过程中累积的CCI效应。
  2. 输出的空间数据可以具有不同的细胞类型布局,模拟不同的组织。
  3. scMultiSim还可以模拟空间区域,这些区域可能与细胞类型不同,给定每个区域中的细胞类型比例。
Para_02
  1. 为了模拟CCI,scMultiSim需要用户输入一组可能相互作用的配体-受体基因对,这被称为配体-受体数据库。
  2. 用户可以输入细胞类型级别的或单细胞级别的CCI真实情况。
  3. 如果用户没有提供真实情况的CCI效应,scMultiSim可以从配体-受体数据库中随机生成真实情况。
  4. scMultiSim允许用户模拟长距离和短距离的CCI效应,如参考文献36所述。
Para_03
  1. 在每一步t,一个新的细胞被生成并添加到网格中。
  2. 当添加一个新细胞时,它有pn的概率(细胞类型亲和力)成为现有相同细胞类型的邻居。
  3. 此外,在最后的时间步骤后,用户可以选择继续模拟tc步,所有细胞保持原位(默认是10)。
  4. 这可能会增加最终稳定状态中的CCI效应。
Para_04
  1. 我们还提供了其他将新细胞放置的策略,包括(1)所有细胞随机放置,以及(2)只有前m个细胞随机放置,其余的遵循pn。
  2. 由于不同的组织在空间中可以有不同的细胞类型组织方式,scMultiSim为细胞的空间布局提供了多种选项:'layers',其中细胞类型像大脑皮层一样在组织中形成层;'islands',如被其他细胞类型包围的肿瘤;以及'default',通过调整pn参数可以产生多种布局。
Para_05
  1. 在使用"层"和"岛屿"布局时,细胞位置在模拟开始前就已经被预分配。
  2. 对于"岛屿",用户可以指定哪些细胞类型应形成岛屿。
  3. 我们首先通过在现有细胞旁边随机放置新细胞来生成岛屿形状,然后将岛屿放置在网格中,并确保它们不重叠。
  4. 接下来,非岛屿细胞类型以相似的亲和力参数 pn 随机放置在网格中。
  5. 对于"层",我们仍然在现有细胞旁边放置新细胞,但我们会先根据细胞类型对所有细胞进行排序以生成层结构。
  6. 最后,一小部分所有细胞的位置会被随机化以添加一些噪声。
Para_06
  1. 需要一个预定义的细胞分化树作为输入,以定义细胞中的分化拓扑结构。
  2. 一个新的细胞在分化树的根部始终处于初始状态。
  3. 在每一步中,一个现有的细胞沿着细胞分化树中的随机路径向前移动,表示细胞发育。
  4. 最终步骤中的基因表达被输出为观测数据。
  5. 在最终步骤中,细胞将处于不同的发育阶段,即位于树的不同位置。
  6. 因此,最终输出将包含由树定义的轨迹。
  7. 扩展数据图1展示了CCI模式的结构。
Para_07
  1. 尽管在最后时间步的细胞是输出(这在真实数据中是常见的情况),但由于细胞是在不同的时间点添加的,因此在最后一步保证会呈现不同类型的细胞,从而具有不同的发育阶段。
  2. 此外,我们让同一细胞(在同一位置)在不同时间步具有相同的 diff-CIF,以确保编码在 diff-CIF 中的轨迹在最后一步得以保留。
  3. 当前步骤的细胞的 TF 和 lig-CIF 是从前一步继承而来的,以确保其他因素保持不变。
Para_08
  1. scMultiSim 进一步提供了一个半径参数,用于考虑远距离 CCI 效应。
  2. 对于每个细胞,相互作用的细胞是从该半径内的所有细胞中均匀采样的。
  3. 默认情况下,半径 = 1,这意味着一个细胞只能与网格中的最近四个邻居相互作用。
  4. 半径参数也可以是一个可配置的高斯核,其标准差为 σrad。
  5. 在这种情况下,两个细胞相互作用的概率与其距离成比例,应用高斯核后,如公式(6)所示,会产生短距离和远距离 CCI 效应。
Para_09
  1. 其中,d(i, j) 是单元格 i 和 j 之间的欧几里得距离。
  2. 然后,使用采样的相互作用单元格作为‘邻近单元格’来填充 lig-CIF 和 lig-GIV 条目。
  3. 要采样的相互作用单元格的总数也由 max.neighbor 参数控制。
  4. 扩展数据图 4e 展示了不同 σrad 的结果。
  5. 用户可以选择从特定的时间步开始模拟(通常是最终时间步)。在这种情况下,所有单元格将一次性添加,并且仅在稳定状态下经历tc步骤。
  6. 此模式可以提高模拟时间,并且对于超过800个空间单元格的情况默认启用。
  7. 根据我们的实验,此模式对CCI相关性几乎没有影响。
  8. 用户还可以选择启用输出单细胞级别的CCI真实标签。当启用时,相互作用的邻近细胞对在开始时通过从细胞类型级别的真实标签中采样80%的相互作用边来预先确定。

Generating the GIVs

生成GIVs

Para_01
  1. 一个基因的GIV向量长度与CIF向量相同。
  2. 基因的GIV中的值作为对应因素在CIF中的权重,即对应CIF对基因的影响程度(图2a)。
  3. 如果我们有ngene个基因,我们就可以得到一个大小为ncif × ngene的GIV矩阵。

错误!!! - 待补充 错误!!! - 待补充

Simulating scATAC-seq data and the relationship between scATAC-seq and scRNA-seq

模拟单细胞ATAC测序数据以及单细胞ATAC测序与单细胞RNA测序之间的关系

Para_01
  1. 由于scMultiSim在基因表达中包含了染色质可及性的影响,因此先模拟scATAC-seq数据,再模拟scRNA-seq数据。
  2. scATAC-seq数据中的细胞类型可以遵循与scRNA-seq数据相同的分化树(scATAC-seq和scRNA-seq数据共享相同的细胞),也可以遵循不同的树(当用户希望在不同模态之间引入受控差异时)。
Para_02
  1. 在scMultiSim中,区域和基因都与区域ID和基因ID相关联,而不会被分配到基因组上的具体位置。
  2. 与GIV类似,我们使用随机采样的RIV矩阵来表示染色质区域。
  3. 按照相同的机制,我们将CIF和RIV矩阵相乘,得到一个‘不真实的scATAC-seq’数据矩阵。
  4. 接下来,通过将‘不真实的’scATAC-seq数据缩放以匹配从真实数据中学习到的真实分布,获得scATAC-seq数据矩阵。
  5. 这一步是为了捕捉染色质可及性模式的内在变化,我们在生成基因表达时也将此方法应用于动力学参数。
Para_03
  1. RIV矩阵是从分布ℝ中采样的,类似于𝒢,如公式(8)所示:

错误!!! - 待补充

Para_05
  1. 为了考虑scATAC-seq和scRNA-seq数据之间的关系,我们使用scATAC-seq数据来调整用于生成scRNA-seq数据的kon参数,考虑到染色质可及性会影响基因的激活状态。
  2. 给定矩阵Mtg表示转录因子基因调控(GRN),一个TF-基序到区域矩阵Mtr和峰到基因矩阵Mrg(图1b),我们认为以下关系是成立的,如方程(9)所示。

错误!!! - 待补充

Preparing the kinetic parameters

准备动力学参数

Para_01
  1. 当使用动力学模型或beta-Poisson分布生成单细胞基因表达数据(mRNA计数)时,需要动力学参数kon、koff和s(图1b)。
  2. 虽然基本思路是通过CIF和GIV获得参数矩阵(图1b),但这三个参数在CIF × GIV步骤后会经历不同的后续处理步骤。
  3. 我们首先将CIF × GIV对于kon、koff和s的结果分别表示为M1、M2和M3。

错误!!! - 待补充

Para_03
  1. (ii)koff。参数是通过将M2进行缩放以匹配实际数据分布获得的。对于kon和koff,可以通过一个可选的双峰因子B来调整基因表达的双峰性。较大的B值会缩小kon和koff,从而增加双峰性。
Para_04
  1. (iii)s。这些参数是通过将M3进行缩放以匹配从真实数据中推断出的s的分布而获得的。然后,用户还可以使用"scale.s"参数对s进行线性缩放。这使我们能够调整细胞的大小——一些数据集倾向于具有较大的细胞,而另一些数据集则倾向于具有较小的细胞,这取决于所分析的细胞类型。
Para_05
  1. 当将矩阵(M1′,M2 或 M3)缩放以匹配参考分布(例如,从真实数据中估计的 kon、koff 和 s 的分布)时,步骤如下:将参考分布表示为 D,需要重新缩放的矩阵为 X,X 中的元素数量为 n,我们从 D 中抽样 n 个有序值,然后用相同的顺序替换 X 中的数据。
  2. scMultiSim 使用 SymSim22 中提供的参考动力学分布参数,其中动力学参数通过马尔可夫链蒙特卡洛(MCMC)方法从真实数据中估计得到。
  3. 使用了基于唯一分子标识符(UMI)的 3,005 个皮层细胞数据集和非 UMI 基础的 130 个表达白细胞介素-17 的辅助 T 细胞数据集。

Generating RNA velocity with the full kinetic model

使用完整的动力学模型生成RNA速度

Para_01
  1. 使用完整的动力学模型时,scMultiSim可以从动力学参数中生成每个细胞的剪接和未剪接计数。
  2. 一个细胞的起始剪接计数 xs 和未剪接计数 xu 是差分树上前一个细胞的计数。
  3. 对于第一个细胞,剪接/未剪接计数由方程(10)给出。
Para_02
  1. 其中,β 和 d 分别表示基因的剪接和降解速率。γ 和 d 都是从用户控制的正态分布中采样的。
Para_03
  1. 我们将细胞周期长度设为L等于1/k_on加1/k_off,并将其分成多个步骤。步骤的数量遵循m等于L除以最小的1/k_on和1/k_off的向上取整。
  2. 我们还提供了一个可选的细胞长度因子ηL参数来缩放周期长度。
  3. 然后根据p_on等于k_on除以m乘以L和p_off等于k_off除以m乘以L分别计算基因开启或关闭的概率。
  4. 在每个模拟步骤中,我们根据p_on和p_off更新细胞当前的开启/关闭状态,并生成剪接/未剪接计数x_s和x_u。
  5. 在步骤t时的剪接计数根据方程(11)获得
Para_04
  1. 并且未剪接的计数是根据公式(12)获得的
Para_05
  1. 输出的 xs 和 xu 是在最终步骤 t = m 时的值。真实 RNA 运动速度是根据公式(13)计算的。
Para_06
  1. 在基准测试计算方法时,我们通过在原始速度数据上应用高斯核KNN得到KNN平均的RNA速度,其中k = ⌈ncell/50⌉。
  2. 然后我们通过计算每个细胞的归一化因子si = ∣vi∣对速度进行归一化,其中vi是细胞i的速度向量。

Adding technical noise and batch effects to data

向数据中添加技术噪声和批次效应

错误!!! - 待补充

Para_02
  1. 批量效应是通过首先将细胞分成批次,然后根据位移因子添加基因特异性和批次特异性的高斯噪声来实现的。
  2. 对于批次 i 中的每个基因 j,位移因子从 Unif(μj − eb, μj + eb) 中采样,其中 μj ~ N(0,1),eb 是控制批量效应强度的参数。
  3. 我们提供了几种设置,用于添加高表达基因,以帮助研究人员在真实数据中拟合管家基因。
  4. scMultiSim 还支持在 PCR 过程中对 mRNA 捕获效率进行逐细胞和逐基因的调整;因此,观察数据中的每细胞和每基因指标(如零计数比例和计数方差)可以分别控制。
Para_03
  1. 对于scATAC-seq,由于数据是从真实数据中采样的,我们没有明确模拟实验步骤。我们提供了方法来添加批次效应,以获得多个批次的scATAC-seq数据。

Evaluation metrics for benchmarking computational methods

基准计算方法的评估指标

Para_01
  1. 我们使用 Python 3.9.13 进行所有基于 Python 的方法,除了 Cobolt 使用的是版本 3.10.5。
Para_02
  1. 接下来,我们描述用于多模态数据整合方法、图连通性和ASW的评估指标。
Para_03
  1. 图的连通性是根据公式(14)定义的
Para_04
  1. 其中 C 代表所有细胞类型,LCC(c) 表示细胞类型 c 所在的最大连通分量。
Para_05
  1. ASW 是根据公式(15)定义的
Para_06
  1. 其中M是所有细胞类型的集合,Cj是类型j的所有细胞。我们使用了参考文献42中的实现。

Data availability

Para_01
  1. 模拟数据集可通过 https://doi.org/10.5281/zenodo.13119261 在 Zenodo 上获得。
  2. seqFISH+ 数据可以使用 GiottoData R 包下载,或者在 GitHub 上通过 https://github.com/drieslab/spatial-datasets/tree/master/data/2019_seqfish_plus_SScortex/ 下载。
  3. 原始数据可在 Gene Expression Omnibus 中通过访问编号 GSE98674 获得。
  4. 10x Multinome 数据可在 https://www.10xgenomics.com/resources/datasets/pbmc-from-a-healthy-donor-no-cell-sorting-3-k-1-standard-2-0-0/ 上获得。
  5. MERFISH 数据可以通过 R 包 MerfishData 中的 MouseHypothalamusMoffitt2018 方法获取,或者最初从 Dryad 通过 https://doi.org/10.5061/dryad.8t8s248 获得。
  6. ISSAAAC-seq 数据可以从 https://www.ebi.ac.uk/biostudies/arrayexpress/studies/E-MTAB-11264/ 获得。
  7. 本论文附有原始数据。

Code availability

Para_01
  1. scMultiSim R 包可在 https://github.com/ZhangLabGT/scMultiSim/ 获取,并通过 https://doi.org/10.5281/zenodo.14624601 在 Zenodo 上获取。
  2. scMultiSim 也可通过 https://bioconductor.org/packages/release/bioc/html/scMultiSim.html 在 Bioconductor 上获取。
  3. 数据集生成和基准测试的代码可在 https://github.com/ZhangLabGT/scMultiSim_manuscript/ 获取,并通过 https://doi.org/10.5281/zenodo.13626212 在 Zenodo 上获取。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Results
    • scMultiSim overview
      • The kinetic model and control of intrinsic noise
      • Modeling cellular heterogeneity and various biological effects
      • Simulating spatial data
      • Technical variations and batch effects
      • The overall simulation process
    • Design of simulation and datasets
    • Generating multimodal data from predefined cell structures
      • Coupling between scATAC-seq and scRNA-seq data
      • scMultiSim simulates technical noise and batch effects
      • scMultiSim generates spliced and unspliced mRNA data with ground-truth RNA velocity
    • Simulating data driven by GRNs and CCI
      • GRN-guided expression data
      • Cell spatial locations, spatial domains and SVGs
      • Correlations between interacting ligands and receptors
    • scMultiSim-simulated datasets match real data
    • Benchmarking computational methods using scMultiSim
    • Benchmarking mosaic data integration methods
    • Benchmarking GRN inference methods using multimodal data
    • Benchmarking CCI inference methods
    • Benchmarking classical tasks
  • Discussion
  • Methods
    • The beta-Poisson model and intrinsic noise
    • CIFs and GIVs
    • diff-CIF generates user-controlled trajectories or clusters
    • tf-CIFs and GIVs encode the GRN effects
    • lig-CIFs and GIVs encode CCI effects
    • Generating spatial data with different layouts
    • Generating the GIVs
    • Simulating scATAC-seq data and the relationship between scATAC-seq and scRNA-seq
    • Preparing the kinetic parameters
    • Generating RNA velocity with the full kinetic model
    • Adding technical noise and batch effects to data
    • Evaluation metrics for benchmarking computational methods
  • Data availability
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档