前面我们拿b细胞作为案例演示了 每个单细胞亚群取子集后继续降维聚类分群标准操作,只需要合理的命名后就看不同亚群的比例,针对这个细分后的结果进行拟时序分析,转录因子分析等等。这些分析都是在任意单细胞亚群是通用的代码。
但是,问题就出在了合理的命名!通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群, 以及免疫细胞里面的髓系和B细胞细分亚群:
也就是说,做单细胞转录组数据分析的时候需要有很多背景知识,而不仅仅是跑代码,做统计可视化!
比如大名鼎鼎的成纤维细胞亚群中混入了平滑肌细胞(Smooth Muscle Cells, SMCs)和周细胞(Pericytes),这个混合的单细胞亚群可以被称为“混合间充质细胞群”(Mixed Mesenchymal Cell Cluster)或“血管相关间充质细胞群”(Vascular-Associated Mesenchymal Cell Cluster),具体命名取决于细胞的来源和所处的组织微环境。以下是一些可能的命名方式:
在单细胞转录组分析中,研究者可能会使用聚类算法来区分不同的细胞亚群,并根据基因表达模式来识别和命名这些亚群。正确命名这些亚群有助于科学界理解和交流特定的细胞群体。
前面我们拿b细胞作为案例演示了 每个单细胞亚群取子集后继续降维聚类分群标准操作:
但这个并不意味着,它只能说是区分成为这些单细胞亚群。我们默认使用的是RNA_snn_res.0.1,很简单的提高一下分辨率到RNA_snn_res.0.5,就可以看到我们的所谓的稳定的b细胞4大亚群其实是可以裂变的 ;

如下所示naive主要是可以拆分成为RNA_snn_res.0.5这个分辨率下面的 亚群1和4 , 然后memory主要是可以拆分成为RNA_snn_res.0.5分辨率下面的 亚群0,2,5 :
> table(sce.all.int$celltype,sce.all.int$RNA_snn_res.0.5)
0 1 2 3 4 5 6 7 8 9 10
GC 0 0 0 0 0 0 0 0 175 0 0
memory 1784 0 1277 0 6 504 0 0 1 0 0
myeloids 0 0 0 0 0 0 0 0 0 0 28
navie 0 1447 44 0 603 4 0 0 0 0 0
plasma 0 0 0 977 0 0 0 222 0 0 0
Tcells 0 0 0 0 0 0 340 0 0 142 0
在张泽民老师的单细胞文章:《Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes》就是针对这些更细致的b细胞亚群进行了解释,如下所示 :

前面我们提到了 我们的naive主要是可以拆分成为RNA_snn_res.0.5这个分辨率下面的 亚群1和4 ,但是我们看它的top基因的时候,基本上跟张泽民老师的两个naive亚群的基因(TCL1A, NR4A2)没有重叠,如下所示可以看到 亚群1和4 并不是在TCL1A, NR4A2两个基因有表达量的特异性 :

这个问题我也单独的探讨过,详见:跟着张泽民老师挑各个单细胞细分亚群的代表性基因
所以如果没有生物学背景,仅仅是靠每个人在自己的数据集里面去定义,会出现各种千奇百怪的亚群,而且大多数都很难复现出来。
前面的b细胞已经是比较公认的可以可以区分成为 B细胞和 Plasma细胞,详见 B细胞细分亚群。然后还有髓系免疫细胞细分亚群,也比较清晰,这个胃癌单细胞数据集GSE163558对应的文献“Revealing the transcriptional heterogeneity of organ-specific metastasis in human gastric cancer using single-cell RNA Sequencing”,也说的很清楚,首先是髓系免疫细胞里面的中性粒细胞和肥大细胞,还有单核巨噬系统细胞这3大亚群 :

然后就是可以针对单核巨噬系统细胞继续细分,就是单核细胞和巨噬细胞,然后是树突细胞。最后树突细胞又是可以继续细分,如下所示:

其实就对应了前面的学习单细胞亚群命名的层次结构 ,免疫细胞里面有髓系,髓系里面有单核巨噬系统,然后里面有树突细胞,树突细胞又是可以细分,而且都是有生物学名字,是cDC1,cDC2,cDC3,以及pDC。这个已经算是分到了第五层次,但是文献里面的中性粒细胞就细分是第三层次,细分之后都没办法给出来生物学名字,仅仅是使用了顺序编号进行命名,甚至都没有给出来每个编号亚群的特异性高表达量基因:

而且如果是t细胞,就很麻烦,首先是按照功能进行划分,naive, memory ,effector,cytotoxic,Exhaustion:
如果你使用上面的基因列表,你会发现主要的naive状态的是CD4的T细胞,其它主要是CD8的T细胞。而且更多时候应该是看整体的多个基因联合起来的打分,并不能完全是看某个基因或者某些基因在某个单细胞亚群里面的排他性的特异性高表达,比如 resident, cytotoxic, exhausted, and costimulatory score for CD8 T cells 这些基因列表可以去做单细胞层面的打分:
再比如成纤维细胞,周细胞,平滑肌细胞,如果提取它们作为单细胞子集去降维聚类分群,也是会很难办。
前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的,每个单细胞亚群细分的时候,是有 单细胞亚群的生物学命名的4个规则,如下所示 :