
编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Ling-Yun Wu和Zheng Xia团队的一篇关于单细胞表型学习的论文。准确地从异质细胞群体中识别与表型相关的细胞亚群对于揭示驱动生物学或临床表型的潜在机制至关重要。在这里,通过采用一种带拒绝学习策略作者开发了一种名为PENCIL的新型监督学习框架,用于从单细胞数据中识别与分类或连续表型相关的亚群。通过将特征选择功能嵌入到这个灵活的框架中,首次能够同时选择信息丰富的特征并识别细胞亚群,从而能够准确识别由于无法同时进行基因选择而被其他方法忽略的表型亚群。

在发育、干扰、病理变化和临床干预过程中,异质细胞系统会改变细胞状态和组成,导致表型上有明显差异的细胞亚群。随着单细胞研究的快速积累,我们可以对不同实验或病理条件下的样本进行分析,例如野生型对比敲除型条件、治疗抵抗对比反应组以及疾病进展的分级评分。区分与感兴趣的表型相关的亚群与异质细胞群体有助于改善对特定表型信号的检测,并促进可靠的下游分析。
对于分类表型,可以通过差异丰度分析来识别与表型相关的亚群。一种直接的方法是首先对细胞进行聚类,然后比较每个聚类中条件的比例。此外,最近的研究提出了无聚类的策略,例如通过检查通过k最近邻(KNN)图连接的细胞的表型标签的方法。然而,KNN图需要事先进行基因选择,这是通过无监督的方式分别确定的,例如选择最具变异性的基因(MVGs)。这种无监督的基因选择方法、可能无法捕捉到潜在基因空间中隐藏的与表型相关的细胞亚群。因此,为了准确检测感兴趣的细胞,基因选择必须嵌入到亚群识别过程中。然而,基于细胞-细胞相似性矩阵作为输入的KNN工具无法将基因选择纳入到亚群识别中。此外,在检测静态分类的细胞子集之外,我们还需要对选定的细胞进行连续的表型轨迹排序,以揭示动态生物过程中的转变和关系。因此,需要进一步发展超越细胞-细胞相似性的新方法学框架。在本文中,作者提出了一种新的工具,利用拒绝学习(Learning with Rejection,LWR)策略从单细胞数据中检测高置信度的与表型相关的亚群(PENCIL)。LWR包括一个预测函数(图1a)和一个拒绝函数(图1b),用于拒绝低置信度的细胞。然后,通过将特征选择项嵌入到LWR框架中,PENCIL可以在训练过程中进行基因选择,从而学习适当的基因空间,促进从单细胞数据中准确识别亚群。此外,PENCIL的回归模式可以对细胞进行排序,揭示在不同条件下进行连续转变的亚群。

图 1
PENCIL架构
作者开发了一种名为PENCIL的新型监督框架,用于从单细胞数据中识别表型亚群。受机器学习中LWR策略的启发,作者将差异丰度分析转化为一个监督学习的应用(图1a、b)。从LWR的角度来看,由特定表型富集的细胞亚群将更容易进行分类/拟合,而那些具有类似表型标签丰度的细胞亚群将导致更多的分类/拟合错误,因此应该被拒绝。然后,通过将监督特征选择技术融入到LWR中,PENCIL可以同时选择信息丰富的基因并识别与表型相关的细胞亚群。
具体而言,PENCIL的输入数据包括单个细胞的定量矩阵和所有细胞的条件标签(图1c、d)。条件标签可以采用多种形式,如多个实验干扰、疾病阶段、时间点等。简而言之,PENCIL由三个模块组成:基因权重w、预测器h和拒绝器r(图1e)。特定细胞的输入基因表达向量x首先与基因权重相乘,然后分别输入给预测器和拒绝器。预测器将预测细胞的标签,拒绝器将产生一个置信度分数,用于量化预测标签的可信度(图1f)。基因权重是可学习的,预测器和拒绝器是普通的可训练模型。这三个模块的参数通过最小化带有条件标签的输入表达矩阵的目标函数来进行训练(图1g),其中基因权重受到稀疏惩罚(l1范数)以选择信息丰富的基因。最小化总损失本质上是在每个细胞中选择适应代价l和预先确定的拒绝代价c之间的较小值。对于易于拟合的细胞,将选择前者,置信度得分r(x) > 0。相反,对于难以拟合的细胞,将选择拒绝(r(x) 0)的组合将输出具有预测标签的选定亚群。
PENCIL可以接受分类的表型或连续变量作为输入。例如,图1h显示了一个模拟的单细胞RNA测序(scRNA-seq)数据集,其中使用前5000个最变量基因(MVGs)在Uniform Manifold Approximation and Projection (UMAP)中进行了二元表型标签。标准的基于前5000个MVGs的聚类分析无法区分包含在聚类0中的两个表型聚类(图1i)。相比之下,作者的PENCIL分类模式结合基因选择可以识别出这两个微妙的表型亚群,如基于PENCIL选择的基因的UMAP所示(图1j)。此外,通过将预测模块设置为回归器,PENCIL可以处理类似疾病阶段的连续表型标签,这与差异丰度分析执行的基本不同任务。例如,在模拟的双条件单细胞数据集中(图1k),基于类别的亚群识别方法(如Milo10)仅识别差异丰度的亚群(图1l)。有趣的是,基于回归的PENCIL可以重构表型轨迹,揭示在条件之间进行连续转变的亚群(图1m)。

图 2
模型测试
为了测试PENCIL的有效性,作者设置了一系列的模拟数据集,并与现有的方法进行了全面比较,包括DAseq、Milo和MELD。作者利用一个真实的T细胞scRNA-seq数据集,通过挑选基因集并相应地模拟条件标签来生成各种模拟设置。对于两个条件,作者首先从前2000个最有价值的基因中预先选择了一部分用于聚类,并选择了两个聚类作为地面真实表型亚群(图2a)。在设置好模拟之后,作者将前2000个最有价值的基因的基因表达矩阵和模拟的条件标签作为所有四种方法的相同输入(图2b,c)。由于用于生成聚类的基因只是总基因的一个子集,使用前2000个最有价值的基因进行标准scRNA-seq分析流程将无法捕捉到正确的细胞相似性,导致细胞标签信息的模糊聚合模式(图2d、e),因此基于前2000个最有价值的基因的KNN方法很难识别出感兴趣的亚群。由于PENCIL同时选择基因和识别亚群的独特能力,它能够恢复84.5%的地面真实表型富集细胞,并保持高精确度(0.833)(图2f)。相比之下,由于前2000个最有价值的基因无法捕捉到地面真实表型亚群的正确相似性(图2d、e),其他三种基于KNN的方法表现不佳,特别是MELD,它没有选择任何细胞(图2g-i)。事实上,PENCIL中的特征选择有助于提高该过程的性能,正如由PENCIL选择的基因生成的UMAP所示,它捕捉到了设计好的地面真实亚群的适当的细胞间相似性结构(图2j、k)。此外,PENCIL还可以灵活处理多于两个条件的情况。因此,作者在使用相同的T细胞scRNA-seq数据集的三个条件的模拟数据集上进行了类似的评估,结果显示PENCIL比其他方法更有效(图2m-r)。事实上,嵌入在PENCIL框架中的特征选择功能选择了信息丰富的基因,并改善了在潜在基因空间中识别隐藏的表型富集亚群的性能,而这些亚群在训练期间缺乏基因选择的方法无法准确检测到。
PENCIL实现了监督式的表型轨迹学习

图 3
除了分类性表型外,越来越多的单细胞数据集被设计用于分析多个时间点和连续疾病阶段的组织情况。基于LWR的PENCIL框架可以通过更新预测损失函数(方法)轻松地将这些连续性表型纳入回归模式中。在此,作者进行了一系列的模拟实验,以展示PENCIL在回归任务中的性能和实用性。在第一个模拟实验中,作者使用了一个经过主成分分析处理的真实scRNA-seq T细胞数据集(16,291个细胞,带有10个主成分(PCs)),生成了时间点标签。作者在选择的细胞轨迹上设置了三个重叠的时间点作为这个模拟实验的真实标签(图3a),其他细胞则被随机分配了一个时间标签作为背景噪声(图3b)。PENCIL将模拟的时间点作为连续变量进行回归,几乎捕捉到了在模拟的地面真实中定义的整个细胞轨迹(图3c)。尽管Milo声称能够处理连续变量,但它只能选择轨迹的起始点和终点的细胞,忽略了中间的细胞(图3d)。Venn图比较显示,与Milo相比,PENCIL分配了更多的地面真实细胞(92%对比54%),并具有更高的精确度(90%对比80%)(图3e)。更重要的是,基于回归的PENCIL最独特的特点是能够预测所选细胞的连续时间顺序(图3f),而Milo仅测试随时间的丰度是否减少或增加(负值或正值)(图3g)。有趣的是,在这个例子中,PENCIL预测的时间顺序分布的直方图显示了在时间点1.5和2.5处的两个额外的峰值,这表明在设计的三个时间点之间存在隐藏的细胞转变阶段(t1.5和t2.5)(图3h)。因此,预测的连续时间分数可以揭示在指定的时间点之间存在的新的关键时间点或表型阶段,这在实验计划或临床定义中可能被忽视。接下来,作者在回归任务中研究了PENCIL的基因选择功能。与之前的基于回归的实验类似,作者基于聚类为真实表型亚群指定了基因集,但这次聚类是从预先选择的基因集中生成的,以确保进行特征选择。一致地,基于回归的PENCIL学习到的信息丰富基因有助于亚群的识别,并为所选细胞预测连续的时间点(图3i-o)。
PENCIL可识别与免疫疗法相关的亚群

图 4
对于真实数据分析,作者首先将PENCIL应用于患有黑色素瘤的CD8+ T细胞scRNA-seq数据集(6,350个细胞),其中包括17个免疫检查点阻断治疗(ICB)的反应者和31个非反应者(图4a)。针对ICB治疗结果表型,基于分类的PENCIL识别出与非反应者相关的2,663个细胞和与反应者相关的1,243个细胞(图4b)。同时,PENCIL选择了88个信息丰富的基因。基于这些选定的基因,UMAP显示了PENCIL选择的细胞的明显聚集模式(图4c)。为了记录ICB结果背后的转录模式,作者在与ICB反应和耐药相关的两个亚群之间执行了差异表达基因(DEG)分析。这项分析揭示了PENCIL选择的表型亚群之间的1,216个DEG(图4d),其中包括除了原始的所有反应者与非反应者细胞之间的DEG之外的950个新的DEG(图4d)。这些独特于PENCIL的DEG富集在与CD8+ T细胞相关的200多个通路中。值得注意的是,与ICB反应者相关的亚群具有与T细胞记忆和存活相关的基因的较高表达,例如IL7R,CCR7,LEF1,SELL和TCF7(图5e、f)。相反,与非反应者相关的亚群表达与T细胞衰竭和功能障碍相关的基因,例如TOX,LAG3,PDCD1和CTLA4(图5e、f)。此外,与其他策略不同,基于LWR的监督学习框架在另一个独特的用途是,训练好的PENCIL模型可以直接用于预测新单细胞样本的细胞表型。为了展示这个功能,在同一个包含48个样本的数据集中,作者进行了一次留一患者(LOPO)评估。在这种方法中,来自47个患者的细胞被用于训练PENCIL模型,然后该模型被用于预测被排除的患者的细胞表型。这种基于单细胞级别的表型预测进一步用于通过比较与两种表型相关的细胞数量来推断患者级别的表型(补充图2)。然后,如果预测为反应者细胞的细胞比例超过50%,作者将每个“被排除的”患者视为反应者,并将此状态与实际的临床注释进行评估。结果显示,基于PENCIL的单细胞级别预测所进行的患者级别推断在48个样本中正确确定了40个ICB结果(图4g),并在LOPO评估中达到了0.935,这与原始研究中的48个样本相当。此外,鉴于在这个T细胞黑色素瘤ICB数据集上训练的PENCIL模型,作者将其应用于三个已知ICB反应状态的黑色素瘤患者。PENCIL排除了不相关的细胞并预测了所选细胞的表型(图4h-j)。然后,通过比较PENCIL预测的两种条件下表型细胞的数量,模型正确推断了这三个新样本的患者级别ICB结果(图4h-j)。
结论
通过利用监督式LWR,作者开发了PENCIL,可以同时选择基因、选择细胞并预测分类标签或连续顺序,从而为从单细胞数据中识别与表型关联的高置信度亚群提供了一种新的范式。PENCIL的分类模式可以识别特定表型富集的亚群,这与差异丰度测试算法具有相同的应用。然而,基于监督学习的PENCIL框架提供了一种更灵活的方式,可以同时选择基因和识别亚群。为了展示这个独特的功能,作者设计了与其他方法进行比较的模拟实验,需要进行基因选择。然而,作者的努力并不是为了开发一种新的方法,以逐步改进现有方法的性能,而是为了展示PENCIL可以进行基因选择来辅助亚群的识别。实际上,当禁用特征选择功能时,PENCIL和其他方法的表现相似。此外,PENCIL选择的基因可以作为其他方法的输入,用于构建适当的KNN图,这将补充现有的基于KNN的方法。
参考资料
Ren, T., Chen, C., Danilov, A.V. et al. Supervised learning of high-confidence phenotypic subpopulations from single-cell data. Nat Mach Intell 5, 528–541 (2023).
https://doi.org/10.1038/s42256-023-00656-y