首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >单细胞亚群取子集后的细分亚群再命名的两个难题

单细胞亚群取子集后的细分亚群再命名的两个难题

作者头像
生信技能树
发布2024-11-21 09:52:43
发布2024-11-21 09:52:43
5420
举报
文章被收录于专栏:生信技能树生信技能树

前面我们拿b细胞作为案例演示了 每个单细胞亚群取子集后继续降维聚类分群标准操作,只需要合理的命名后就看不同亚群的比例,针对这个细分后的结果进行拟时序分析,转录因子分析等等。这些分析都是在任意单细胞亚群是通用的代码。

但是,问题就出在了合理的命名!通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。

前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群, 以及免疫细胞里面的髓系和B细胞细分亚群:

也就是说,做单细胞转录组数据分析的时候需要有很多背景知识,而不仅仅是跑代码,做统计可视化!

比如大名鼎鼎的成纤维细胞亚群中混入了平滑肌细胞(Smooth Muscle Cells, SMCs)和周细胞(Pericytes),这个混合的单细胞亚群可以被称为“混合间充质细胞群”(Mixed Mesenchymal Cell Cluster)或“血管相关间充质细胞群”(Vascular-Associated Mesenchymal Cell Cluster),具体命名取决于细胞的来源和所处的组织微环境。以下是一些可能的命名方式:

  1. 成纤维细胞/平滑肌细胞/周细胞亚群(Fibroblast/Smooth Muscle Cell/Pericyte Subpopulation):
    • 这种命名直接指出了亚群中包含的细胞类型。
  2. 血管周围细胞亚群(Perivascular Cell Subpopulation):
    • 由于周细胞和平滑肌细胞都与血管结构相关,这个名称强调了它们的血管周围定位。
  3. 间充质干细胞亚群(Mesenchymal Stem Cell Subpopulation):
    • 如果这些细胞具有干细胞特性,这个名称可能适用。
  4. 血管壁细胞亚群(Vascular Wall Cell Subpopulation):
    • 如果这些细胞是从血管壁中分离出来的,这个名称可能更准确。
  5. 组织特异性间充质细胞亚群(Tissue-Specific Mesenchymal Cell Subpopulation):
    • 如果这些细胞来自特定的组织或器官,可以在名称中指定组织来源。
  6. 多功能间充质细胞亚群(Multifunctional Mesenchymal Cell Subpopulation):
    • 如果这些细胞具有多种功能或分化潜能,这个名称可以反映它们的多功能性。

在单细胞转录组分析中,研究者可能会使用聚类算法来区分不同的细胞亚群,并根据基因表达模式来识别和命名这些亚群。正确命名这些亚群有助于科学界理解和交流特定的细胞群体。

合理的命名的第一个难题:亚群应该是细分到什么程度

前面我们拿b细胞作为案例演示了 每个单细胞亚群取子集后继续降维聚类分群标准操作

  1. Naive B细胞(未经激活的B细胞)
    • 这些是尚未遇到其特定抗原的B细胞。它们在骨髓中成熟,并在没有遇到病原体的情况下循环于血液中。
  2. Memory B细胞(记忆B细胞)
    • 记忆B细胞是在先前的免疫反应中遇到特定抗原后形成的。它们具有长期存活的能力,并能够快速响应再次出现的相同抗原,提供更快速和有效的免疫反应。
  3. Germinal Center (GC) B细胞
    • GC B细胞是在淋巴器官的生发中心经历快速增殖和突变的B细胞。它们参与体细胞高频突变(somatic hypermutation, SHM)和抗体类别转换(class-switch recombination, CSR),以产生更高亲和力的抗体。
  4. Plasma Cells(浆细胞)
    • 浆细胞是B细胞激活和分化的最终阶段,主要功能是大量产生和分泌抗体。它们可以在骨髓中长期存活,并作为长期的抗体来源。

但这个并不意味着,它只能说是区分成为这些单细胞亚群。我们默认使用的是RNA_snn_res.0.1,很简单的提高一下分辨率到RNA_snn_res.0.5,就可以看到我们的所谓的稳定的b细胞4大亚群其实是可以裂变的 ;

如下所示naive主要是可以拆分成为RNA_snn_res.0.5这个分辨率下面的 亚群1和4 , 然后memory主要是可以拆分成为RNA_snn_res.0.5分辨率下面的 亚群0,2,5 :

代码语言:javascript
复制
>   table(sce.all.int$celltype,sce.all.int$RNA_snn_res.0.5)
          
              0    1    2    3    4    5    6    7    8    9   10
  GC          0    0    0    0    0    0    0    0  175    0    0
  memory   1784    0 1277    0    6  504    0    0    1    0    0
  myeloids    0    0    0    0    0    0    0    0    0    0   28
  navie       0 1447   44    0  603    4    0    0    0    0    0
  plasma      0    0    0  977    0    0    0  222    0    0    0
  Tcells      0    0    0    0    0    0  340    0    0  142    0

在张泽民老师的单细胞文章:《Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes》就是针对这些更细致的b细胞亚群进行了解释,如下所示 :

前面我们提到了 我们的naive主要是可以拆分成为RNA_snn_res.0.5这个分辨率下面的 亚群1和4 ,但是我们看它的top基因的时候,基本上跟张泽民老师的两个naive亚群的基因(TCL1A, NR4A2)没有重叠,如下所示可以看到 亚群1和4 并不是在TCL1A, NR4A2两个基因有表达量的特异性 :

这个问题我也单独的探讨过,详见:跟着张泽民老师挑各个单细胞细分亚群的代表性基因

所以如果没有生物学背景,仅仅是靠每个人在自己的数据集里面去定义,会出现各种千奇百怪的亚群,而且大多数都很难复现出来。

合理的命名的第二个难题:没有统一的生物学背景

前面的b细胞已经是比较公认的可以可以区分成为 B细胞和 Plasma细胞,详见 B细胞细分亚群。然后还有髓系免疫细胞细分亚群,也比较清晰,这个胃癌单细胞数据集GSE163558对应的文献“Revealing the transcriptional heterogeneity of organ-specific metastasis in human gastric cancer using single-cell RNA Sequencing”,也说的很清楚,首先是髓系免疫细胞里面的中性粒细胞和肥大细胞,还有单核巨噬系统细胞这3大亚群 :

然后就是可以针对单核巨噬系统细胞继续细分,就是单核细胞和巨噬细胞,然后是树突细胞。最后树突细胞又是可以继续细分,如下所示:

其实就对应了前面的学习单细胞亚群命名的层次结构 ,免疫细胞里面有髓系,髓系里面有单核巨噬系统,然后里面有树突细胞,树突细胞又是可以细分,而且都是有生物学名字,是cDC1,cDC2,cDC3,以及pDC。这个已经算是分到了第五层次,但是文献里面的中性粒细胞就细分是第三层次,细分之后都没办法给出来生物学名字,仅仅是使用了顺序编号进行命名,甚至都没有给出来每个编号亚群的特异性高表达量基因:

而且如果是t细胞,就很麻烦,首先是按照功能进行划分,naive, memory ,effector,cytotoxic,Exhaustion:

  • naive (LEF1, SELL, TCF7),
  • effector (IFNG),
  • cytotoxicity (GZMB, PRF1),
  • early and general exhaustion (PDCD1, CTLA4, ENTPD1 ) .
  • antigen presentation (CD74, HLA-DRB1/5, HLA-DQA2)

如果你使用上面的基因列表,你会发现主要的naive状态的是CD4的T细胞,其它主要是CD8的T细胞。而且更多时候应该是看整体的多个基因联合起来的打分,并不能完全是看某个基因或者某些基因在某个单细胞亚群里面的排他性的特异性高表达,比如 resident, cytotoxic, exhausted, and costimulatory score for CD8 T cells 这些基因列表可以去做单细胞层面的打分:

  • 5 resident markers (RUNX3, NR4A1, CD69, CXCR6, and NR4A3),
  • 7 cytotoxicity associated genes (PRF1, IFNG, GNLY, NKG7, GZMB, GZMA, CST7, and TNFSF10),
  • 5 exhausted markers (CTLA4, HAVCR2, LAG3, PDCD1, and TIGIT)
  • 6 costimulatory molecular genes (ICOS, CD226, TNFRSF14, TNFRSF25, TNFRSF9, and CD28)

再比如成纤维细胞,周细胞,平滑肌细胞,如果提取它们作为单细胞子集去降维聚类分群,也是会很难办。

前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的,每个单细胞亚群细分的时候,是有 单细胞亚群的生物学命名的4个规则,如下所示 :

  • 第一个规则:已知的生物学亚群(生物学背景知识)
  • 第二个规则:顺序编号加上特异性高表达量基因 (参考张泽民课题组)
  • 第三个规则:生物学功能注释(普通的go和kegg等数据库,msigdb等等)
  • 第四个规则:转录因子等基因集特异性亚群(相当于是更多的生物学功能数据库)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 合理的命名的第一个难题:亚群应该是细分到什么程度
  • 合理的命名的第二个难题:没有统一的生物学背景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档