上周给大家分享了一篇python单细胞文献资源,今天开始学习其中的细节,撸起袖子就是干!文献于2022年12月12日发表在 Cancer Cell 杂志(IF=48.8)上,标题为《High-resolution single-cell atlas reveals diversity and plasticity of tissue-resident neutrophils in non-small cell lung cancer》。
这篇文献是一篇机器典范的python流派的数据分析文章,集合了单细胞数据预处理,数据合并,数据整合,数据注释等工作。跨数据集和大数据量!应该有很多细节值得学习,更特别的是注释工作,做这样的一个大数据量的图谱类细胞类型注释,可以看看里面到底是如何处理各种分析细节的!
通过整合19项研究、21个数据集共计298名患者的505份样本(图1A),首次构建了非小细胞肺癌核心图谱。
核心图谱共整合898,422个单细胞,将其注释为12个粗粒度细胞类型及44个主要细胞亚型/状态(如分裂期细胞),包括169,223个上皮细胞、670,409个免疫细胞及58,790个基质与内皮细胞(图1B)。

AnnData object. Harmonization of gene symbols.下载地址:https://doi.org/10.5281/zenodo.6411867,下载文件夹 input_data.tar.xz,共14个G。
传服务器,解压:
tar -xvf input_data.tar.xz
tree data/ -L 1
tree data/12_input_adatas/ -L 1

12_input_adatas里面的内容:30个h5ad文件。

解读抗体的作用:
Cells isolated from surgically resected NSCLC tumor tissues and adjacent normal tissues were stained with a backbone cocktail of 12 antibodies (CD56, CD3, CD8, CD4, CD45, HLA-DR, CD31, CD14, CD15, CD326, CD19, CD16) which, was complemented either with an additional 8 antibodies (CD28, CD38, CD123, CD34, CD161, CD193, TCRgd, CD90) to define all cell populations, or several mixtures of up to three antibodies (CD54, CD83, CD49b, CD62L, LOX-1, CD181) for a detailed characterization of neutrophils, at pre-titrated concentrations.
这段描述清晰地说明了实验设计:从非小细胞肺癌(NSCLC)的肿瘤组织和癌旁正常组织中分离细胞,然后通过多色流式细胞术进行深度免疫细胞分析。抗体被分为三个主要部分:
这个组合用于鉴定最基础的免疫细胞和基质细胞大类,是进行后续精细分群的基础。
抗体 | 主要作用(在这个实验中的预期细胞类型) |
|---|---|
CD45 | 白细胞共同抗原。这是最重要的抗体,用于将所有白细胞(CD45+)与非白细胞(如上皮细胞、成纤维细胞,CD45-)区分开。 |
CD3 | 总T细胞。鉴定所有T淋巴细胞,包括CD4+和CD8+ T细胞。 |
CD4 | 辅助T细胞。在CD3+细胞中鉴定CD4+ T细胞。也可能包含单核/巨噬细胞(CD3- CD4+)。 |
CD8 | 细胞毒性T细胞。在CD3+细胞中鉴定CD8+ T细胞。 |
CD56 | NK细胞和NKT细胞。CD3- CD56+ 是经典NK细胞;CD3+ CD56+ 是NKT细胞。 |
CD16 | Fcγ受体III。主要表达在NK细胞(尤其是细胞毒性强的亚群)、中性粒细胞、巨噬细胞上。用于进一步细分NK细胞。 |
CD19 | B细胞。鉴定所有的B淋巴细胞。 |
CD14 | 单核/巨噬细胞。经典单核细胞和巨噬细胞的高表达标志物。 |
CD15 | 中性粒细胞、嗜酸性粒细胞。在这个背景下,主要用于鉴定中性粒细胞。也可能在部分单核细胞亚群上表达。 |
HLA-DR | 主要组织相容性复合体II类。是抗原提呈细胞(APC)的标志,如B细胞、单核/巨噬细胞、树突状细胞(DC)、活化T细胞。用于鉴定活化免疫细胞和DC。 |
CD326 (EpCAM) | 上皮细胞粘附分子。是上皮细胞(包括肿瘤细胞) 的特异性标志物。用于从CD45-细胞中圈出上皮来源的细胞。 |
CD31 (PECAM-1) | 血小板内皮细胞粘附分子。是内皮细胞(血管)的标志物。用于在CD45-细胞中鉴定血管内皮细胞。 |
小结:通过这12个抗体,研究者可以将细胞悬液大致分为:
这个组合在骨架抗体的基础上,用于对免疫细胞群体进行更精细的亚群划分。
抗体 | 主要作用(精细分群) |
|---|---|
CD28 | T细胞共刺激分子。表达于初始和大部分效应T细胞,是T细胞活化的关键信号。常用于区分初始/记忆T细胞亚群,或评估T细胞衰竭(CD28-)。 |
CD38 | 活化标志物。广泛表达于活化的T细胞、B细胞、浆细胞。也是髓系来源的抑制性细胞(MDSC)和活化中性粒细胞的标志。在肿瘤微环境中与免疫抑制和炎症相关。 |
CD123 (IL-3Rα) | 浆细胞样树突状细胞(pDC) 的标志物。pDC是产生大量I型干扰素的重要细胞,在抗病毒免疫和自身免疫中起关键作用。 |
CD34 | 造血干细胞/祖细胞 和 血管内皮祖细胞 的标志物。用于检测这些罕见的祖细胞群体。 |
CD161 (KLRB1) | 表达于NK细胞、NKT细胞、以及一部分T细胞(特别是黏膜相关恒定T细胞MAIT和Th17细胞)。 |
CD193 (CCR3) | 趋化因子受体3。主要表达于嗜酸性粒细胞和Th2细胞,是它们招募和活化的关键受体。 |
TCRgd | γδ T细胞受体。用于鉴定非经典的γδ T细胞,这是一类重要的固有样T细胞,在肿瘤免疫中作用复杂。 |
CD90 (Thy-1) | 表达于成纤维细胞、活化内皮细胞、一部分造血干细胞和神经元。在免疫学中,也可用于鉴定某些T细胞亚群或间充质基质细胞。 |
小结:这个组合帮助研究者鉴定pDC、γδ T细胞、MAIT细胞、嗜酸性粒细胞、造血干细胞,并能更细致地分析T细胞的活化状态和功能亚群。
这部分专门用于对CD15+的中性粒细胞进行功能状态和亚群的深度表征。肿瘤微环境中的中性粒细胞(TAN)具有异质性,可分为抗肿瘤(N1)和促肿瘤(N2)亚型。
抗体 | 在中性粒细胞表征中的作用 |
|---|---|
CD54 (ICAM-1) | 细胞间粘附分子-1。在活化内皮细胞和白细胞上表达上调。中性粒细胞表面的CD54与迁移和活化有关。 |
CD83 | 传统上是树突状细胞成熟的标志物,但近年研究发现它也表达于活化的中性粒细胞,可能与免疫调节功能相关。 |
CD49b (Integrin α2) | VLA-2整合素的一部分,参与细胞与胶原的粘附。在中性粒细胞上的表达可能与组织滞留和活化状态相关。 |
CD62L (L-Selectin) | 淋巴细胞归巢受体。在初始中性粒细胞上高表达,介导其在血管壁上的滚动。 upon activation, CD62L被迅速酶切脱落,因此CD62L低表达是中性粒细胞活化的标志。 |
LOX-1 (OLR1) | 凝集素样氧化低密度脂蛋白受体-1。是人源粒细胞样髓系来源的抑制性细胞(G-MDSC) 的一个关键标志物。肿瘤微环境中的许多中性粒细胞表现出G-MDSC的抑制性表型,LOX-1是鉴定这群细胞的重要工具。 |
CD181 (CXCR1) | IL-8受体之一。IL-8是中性粒细胞的主要趋化因子。CXCR1的表达水平影响中性粒细胞对肿瘤来源IL-8的响应能力,与其迁移和活化密切相关。 |
小结:通过检测CD62L(活化)、LOX-1(抑制性功能)、CXCR1(趋化能力)以及其他活化/粘附分子(CD54, CD83, CD49b),研究者可以区分中性粒细胞的不同成熟度、活化状态和功能极性(如N1 vs N2 TAN),从而评估它们在肿瘤微环境中的具体作用。
这个抗体面板设计得非常精妙和全面:
通过这种组合策略,研究者可以一次性从宝贵的临床样本中获取关于适应性免疫(T、B细胞)、固有免疫(NK、髓系细胞)、基质细胞(上皮、内皮)以及关键粒细胞亚群的极其丰富的信息,从而全面揭示NSCLC肿瘤微环境的免疫组成和细胞功能状态。
关于非小细胞肺癌(NSCLC)组织多重免疫荧光实验中所用抗体的作用。这段描述的核心是利用多重免疫荧光技术,在福尔马林固定石蜡包埋(FFPE)组织切片上,同时可视化多种免疫细胞和结构在原位的空间分布,这对于理解肿瘤微环境至关重要。
这个面板的设计旨在鉴定肿瘤微环境中最主要的免疫细胞群和肿瘤细胞本身。
抗体 | 靶细胞/作用 | 在该实验中的意义 |
|---|---|---|
Cytokeratin (CK, 细胞角蛋白)克隆 AE1/AE3, C-11 | 上皮细胞 / 肿瘤细胞 | 定义肿瘤区域。这是最重要的标志物之一,用于勾勒出肿瘤细胞的边界(CD45- CK+),从而将免疫细胞与肿瘤细胞在空间上区分开。可以分析免疫细胞是浸润在肿瘤内部(浸润区)、位于肿瘤边界(侵袭前沿)还是存在于间质中。 |
CD3(多克隆) | 总T细胞 | 鉴定所有的T淋巴细胞。CD3+细胞是肿瘤微环境中最重要的适应性免疫细胞。通过与CD8的组合,可以区分出CD3+CD8+(细胞毒性T细胞)和CD3+CD8-(主要为CD4+辅助T细胞)群体。 |
CD8克隆 C8/144B | 细胞毒性T细胞 | 鉴定主要的效应杀伤细胞。CD8+ T细胞是直接杀伤肿瘤细胞的关键。其密度和空间位置(如是否靠近或侵入CK+肿瘤岛)是评估抗肿瘤免疫应答强度的关键指标。 |
CD20克隆 L26 | B细胞 | 鉴定B淋巴细胞。B细胞可以发挥抗原提呈、产生抗体和免疫调节等功能。在肿瘤中,它们常形成三级淋巴结构,与更好的预后相关。 |
CD68克隆 PG-M1 | 巨噬细胞 | 鉴定大多数的组织巨噬细胞。CD68是一个广泛的巨噬细胞/单核细胞标志物。肿瘤相关巨噬细胞(TAMs)根据其表型可分为促炎(M1样)或免疫抑制/促血管生成(M2样)。PG-M1克隆主要识别成熟的组织巨噬细胞。 |
CD16克隆 EPR22409-124 | Fcγ受体III | 鉴定具有细胞毒性的免疫细胞。主要表达于:1. NK细胞(CD3- CD16+)2. 嗜中性粒细胞3. 一群特殊的CD68+巨噬细胞亚群(可能具有抗体依赖性细胞 phagocytosis/ADCP功能)。用于区分不同的髓系细胞亚群和NK细胞。 |
小结:通过这个核心组合,研究者可以回答:
这个组合用于对特定的细胞群体,特别是中性粒细胞和巨噬细胞,进行更深入的功能亚群分析。
抗体 | 靶点/作用 | 在该实验中的意义 |
|---|---|---|
CD16(同上) | (同上) | 在此与CXCR2和OLR1联用,用于精确圈定中性粒细胞群体(CD16+ CXCR2+)和某些巨噬细胞亚群。 |
CXCR2(C-X-C Motif Chemokine Receptor 2) | 趋化因子受体 | 中性粒细胞的关键标志物和功能受体。CXCR2是介导中性粒细胞向炎症部位(如肿瘤)迁移的主要受体。其配体(如IL-8)在肿瘤中高表达。CD16+ CXCR2+ 双阳性细胞可以非常特异地鉴定为肿瘤相关中性粒细胞(TANs)。 |
OLR1 (LOX-1)(凝集素样氧化低密度脂蛋白受体-1) | 清除受体 | 免疫抑制性髓系细胞的关键标志物。大量研究证实,LOX-1是人源粒细胞样髓系来源的抑制性细胞(G-MDSC) 的特异性标志物。在肿瘤中,许多中性粒细胞会获得G-MDSC的抑制性表型,CD16+ CXCR2+ LOX-1+ 的三阳性细胞很可能就是这群抑制T细胞功能、促进肿瘤进展的抑制性中性粒细胞。 |
小结:这个扩展组合的核心目的是:
10x Chromium (10x Genomics)、Smart-seq2,98 GEXSCOPE (Singleron), inDrop99 and Drop-Seq。
部分数据作者使用的fq进行了重新定量,部分数据作者直接使用的原文来的表达矩阵。后续统一使用scanpy处理,生成 AnnData 对象。
这个表格包含了所有的单细胞RNA测序数据集及其相应的质控参数,不同的数据集阈值不一样(各位怎么看这个,都是同一种样本组织类型的数据,但是包含不同的测序技术):
Dataset | min counts | max counts | min genes | max genes | max pet mito |
|---|---|---|---|---|---|
Adams_Kaminski_2020_COPD | 1000 | 35000 | 500 | 10000 | 20 |
Chen_Zhang_2020_NSCLC | 600 | 30000 | 250 | 10000 | 20 |
Goveia_Carmeliet_2020_NSCLC | 600 | 30000 | 250 | 10000 | 20 |
Guo_Zhang_2018_NSCLC | 20000 | 3000000 | 1000 | 20000 | 20 |
Habermann_Kropski_2020_pulmonary-fibrosis | 600 | 30000 | 200 | 10000 | 20 |
Kim_Lee_2020_LUAD | 1000 | 35000 | 300 | 10000 | 20 |
He_Fan_2021_LUAD | 600 | 30000 | 250 | 10000 | 20 |
Lambrechts_2018_LUAD_6149v1 | 600 | 30000 | 200 | 10000 | 15 |
Lambrechts_2018_LUAD_6149v2 | 600 | 30000 | 250 | 10000 | 20 |
Lambrechts_2018_LUAD_6653 | 1200 | 40000 | 250 | 10000 | 20 |
Laughney_Massague_2020_NSCLC | 1800 | 40000 | 500 | 10000 | 20 |
Madissoon_Meyer_2020_pulmonary-fibrosis | 600 | 30000 | 300 | 10000 | 20 |
Maier_Merad_2020_NSCLC | 1000 | 30000 | 400 | 10000 | 15 |
Maynard_Bivona_2020_NSCLC | 20000 | 2000000 | 600 | 20000 | 30 |
Mayr_Schiller_2020_pulmonary-fibrosis | 600 | 30000 | 250 | 10000 | 10 |
Reyfman_Misharin_2018_pulmonary-fibrosis | 1000 | 30000 | 250 | 10000 | 20 |
Travaglini_Krasnow_2020_Lung_10x | 1000 | 30000 | 500 | 10000 | 0 |
Travaglini_Krasnow_2020_Lung_SS2 | 20000 | 6000000 | 600 | 20000 | 30 |
UKIM-V | 2000 | 100000 | 200 | 8000 | 30 |
Vieira_Teichmann_2019_asthma | 600 | 30000 | 200 | 10000 | 20 |
Wu_Zhou_2021_NSCLC | 600 | 30000 | 300 | 10000 | 30 |
Zilionis_Klein_2019_NSCLC | 600 | 30000 | 200 | 10000 | 20 |
UKIM-V-2 | 1000 | 60000 | 200 | 8000 | 30 |
Leader_Merad_2021_10x_3p_v1_sort | 600 | 30000 | 220 | 10000 | 10 |
Leader_Merad_2021_10x_3p_v2_beads_cite | 600 | 30000 | 300 | 10000 | 25 |
Leader_Merad_2021_10x_3p_v2_beads | 1000 | 30000 | 500 | 10000 | 20 |
Leader_Merad_2021_10x_3p_v2_digest-deadcell_cite | 1000 | 30000 | 500 | 10000 | 20 |
Leader_Merad_2021_10x_3p_v2_sort | 600 | 30000 | 250 | 10000 | 25 |
Leader_Merad_2021_10x_3p_v3_beads | 600 | 30000 | 250 | 10000 | 30 |
Leader_Merad_2021_10x_5p_v1_beads | 1100 | 30000 | 500 | 10000 | 25 |
Leader_Merad_2021_10x_5p_v1_CD2 | 1100 | 30000 | 500 | 10000 | 15 |
1)使用marker基因,Figure S1A
2)CD8+ T cell 细胞亚群注释:使用来自 Oliveira et al 的gene sets,这个挺有意思的,来自一篇Nature文献,标题《Phenotype, specificity and avidity of antitumour CD8(+) T cells in melanoma》

Figure S1A
组间比较细胞类型比例颇具挑战
分别使用PROGENy、DoROthEA和CytoSig工具,对原发性肿瘤样本进行了信号通路、转录因子及细胞因子信号传导活性分析。
使用了从 OmniPathDB 获取的 CellPhoneDB (CPDB) 数据库,以研究原发性肿瘤样本中细胞间通讯的差异。
利用SCISSOR将bulk RNA-seq实验获得的表型数据与我们的单细胞数据相关联。
该单细胞图谱可通过 cell-x-gene (https://luca.icbi.at) 访问,这是一个基于网络的单细胞数据集可视化平台,支持元数据与基因表达数据的交互式展示。
今天分享这么多,step3下一次继续从这里开始更新!