首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >python单细胞学习:(IF=48.8)顶刊杂志复现(一)

python单细胞学习:(IF=48.8)顶刊杂志复现(一)

作者头像
生信技能树
发布2025-11-20 12:02:27
发布2025-11-20 12:02:27
1060
举报
文章被收录于专栏:生信技能树生信技能树

上周给大家分享了一篇python单细胞文献资源,今天开始学习其中的细节,撸起袖子就是干!文献于2022年12月12日发表在 Cancer Cell 杂志(IF=48.8)上,标题为《High-resolution single-cell atlas reveals diversity and plasticity of tissue-resident neutrophils in non-small cell lung cancer》。

这篇文献是一篇机器典范的python流派的数据分析文章,集合了单细胞数据预处理,数据合并,数据整合,数据注释等工作。跨数据集和大数据量!应该有很多细节值得学习,更特别的是注释工作,做这样的一个大数据量的图谱类细胞类型注释,可以看看里面到底是如何处理各种分析细节的!

资源介绍:

核心图谱:a core NSCLC atlas

通过整合19项研究、21个数据集共计298名患者的505份样本(图1A),首次构建了非小细胞肺癌核心图谱

核心图谱共整合898,422个单细胞,将其注释为12个粗粒度细胞类型及44个主要细胞亚型/状态(如分裂期细胞),包括169,223个上皮细胞、670,409个免疫细胞及58,790个基质与内皮细胞(图1B)。

step0:数据和代码

文章的数据队列,基本上都可以下载。提供的数据在这里:
Processed input data:https://doi.org/10.5281/zenodo.6411867
可复现的代码:https://github.com/icbi-lab/luca
  • QC of the individual datasets based on detected genes, read counts and mitochondrial fractions
  • Merging of all datasets into a single AnnData object. Harmonization of gene symbols.
  • Annotation of two "seed" datasets as input for scANVI.
  • Integration of datasets with scANVI
  • Doublet removal with SOLO
  • Annotation of cell-types based on marker genes and unsupervised leiden clustering.
  • Integration of additional datasets with transfer learning using scArches.

step1:下载作者提供的数据并探索

下载地址:https://doi.org/10.5281/zenodo.6411867,下载文件夹 input_data.tar.xz,共14个G。

传服务器,解压:

代码语言:javascript
复制
tar -xvf input_data.tar.xz
tree data/ -L 1
tree data/12_input_adatas/ -L 1

12_input_adatas里面的内容:30个h5ad文件。

step2:看作者的分析方法细节

2.1 Flow cytometry

解读抗体的作用:

代码语言:javascript
复制
Cells isolated from surgically resected NSCLC tumor tissues and adjacent normal tissues were stained with a backbone cocktail of 12 antibodies (CD56, CD3, CD8, CD4, CD45, HLA-DR, CD31, CD14, CD15, CD326, CD19, CD16) which, was complemented either with an additional 8 antibodies (CD28, CD38, CD123, CD34, CD161, CD193, TCRgd, CD90) to define all cell populations, or several mixtures of up to three antibodies (CD54, CD83, CD49b, CD62L, LOX-1, CD181) for a detailed characterization of neutrophils, at pre-titrated concentrations.

这段描述清晰地说明了实验设计:从非小细胞肺癌(NSCLC)的肿瘤组织和癌旁正常组织中分离细胞,然后通过多色流式细胞术进行深度免疫细胞分析。抗体被分为三个主要部分:

1. 核心抗体组合(12色骨架抗体 cocktail)

这个组合用于鉴定最基础的免疫细胞和基质细胞大类,是进行后续精细分群的基础。

抗体

主要作用(在这个实验中的预期细胞类型)

CD45

白细胞共同抗原。这是最重要的抗体,用于将所有白细胞(CD45+)与非白细胞(如上皮细胞、成纤维细胞,CD45-)区分开。

CD3

总T细胞。鉴定所有T淋巴细胞,包括CD4+和CD8+ T细胞。

CD4

辅助T细胞。在CD3+细胞中鉴定CD4+ T细胞。也可能包含单核/巨噬细胞(CD3- CD4+)。

CD8

细胞毒性T细胞。在CD3+细胞中鉴定CD8+ T细胞。

CD56

NK细胞和NKT细胞。CD3- CD56+ 是经典NK细胞;CD3+ CD56+ 是NKT细胞。

CD16

Fcγ受体III。主要表达在NK细胞(尤其是细胞毒性强的亚群)、中性粒细胞、巨噬细胞上。用于进一步细分NK细胞。

CD19

B细胞。鉴定所有的B淋巴细胞。

CD14

单核/巨噬细胞。经典单核细胞和巨噬细胞的高表达标志物。

CD15

中性粒细胞、嗜酸性粒细胞。在这个背景下,主要用于鉴定中性粒细胞。也可能在部分单核细胞亚群上表达。

HLA-DR

主要组织相容性复合体II类。是抗原提呈细胞(APC)的标志,如B细胞、单核/巨噬细胞、树突状细胞(DC)、活化T细胞。用于鉴定活化免疫细胞和DC。

CD326 (EpCAM)

上皮细胞粘附分子。是上皮细胞(包括肿瘤细胞) 的特异性标志物。用于从CD45-细胞中圈出上皮来源的细胞。

CD31 (PECAM-1)

血小板内皮细胞粘附分子。是内皮细胞(血管)的标志物。用于在CD45-细胞中鉴定血管内皮细胞。

小结:通过这12个抗体,研究者可以将细胞悬液大致分为:

  • 免疫细胞(CD45+): T细胞(CD3+)、B细胞(CD19+)、NK细胞(CD56+)、髓系细胞(CD14+, CD15+)。
  • 非免疫细胞(CD45-): 肿瘤/上皮细胞(CD326+)、内皮细胞(CD31+)。

2. 扩展分析抗体组合(8色)

这个组合在骨架抗体的基础上,用于对免疫细胞群体进行更精细的亚群划分

抗体

主要作用(精细分群)

CD28

T细胞共刺激分子。表达于初始和大部分效应T细胞,是T细胞活化的关键信号。常用于区分初始/记忆T细胞亚群,或评估T细胞衰竭(CD28-)。

CD38

活化标志物。广泛表达于活化的T细胞、B细胞、浆细胞。也是髓系来源的抑制性细胞(MDSC)和活化中性粒细胞的标志。在肿瘤微环境中与免疫抑制和炎症相关。

CD123 (IL-3Rα)

浆细胞样树突状细胞(pDC) 的标志物。pDC是产生大量I型干扰素的重要细胞,在抗病毒免疫和自身免疫中起关键作用。

CD34

造血干细胞/祖细胞 和 血管内皮祖细胞 的标志物。用于检测这些罕见的祖细胞群体。

CD161 (KLRB1)

表达于NK细胞、NKT细胞、以及一部分T细胞(特别是黏膜相关恒定T细胞MAIT和Th17细胞)。

CD193 (CCR3)

趋化因子受体3。主要表达于嗜酸性粒细胞和Th2细胞,是它们招募和活化的关键受体。

TCRgd

γδ T细胞受体。用于鉴定非经典的γδ T细胞,这是一类重要的固有样T细胞,在肿瘤免疫中作用复杂。

CD90 (Thy-1)

表达于成纤维细胞、活化内皮细胞、一部分造血干细胞和神经元。在免疫学中,也可用于鉴定某些T细胞亚群或间充质基质细胞。

小结:这个组合帮助研究者鉴定pDC、γδ T细胞、MAIT细胞、嗜酸性粒细胞、造血干细胞,并能更细致地分析T细胞的活化状态和功能亚群。


3. 中性粒细胞深度分析抗体组合(多个3色混合物)

这部分专门用于对CD15+的中性粒细胞进行功能状态和亚群的深度表征。肿瘤微环境中的中性粒细胞(TAN)具有异质性,可分为抗肿瘤(N1)和促肿瘤(N2)亚型。

抗体

在中性粒细胞表征中的作用

CD54 (ICAM-1)

细胞间粘附分子-1。在活化内皮细胞和白细胞上表达上调。中性粒细胞表面的CD54与迁移和活化有关。

CD83

传统上是树突状细胞成熟的标志物,但近年研究发现它也表达于活化的中性粒细胞,可能与免疫调节功能相关。

CD49b (Integrin α2)

VLA-2整合素的一部分,参与细胞与胶原的粘附。在中性粒细胞上的表达可能与组织滞留和活化状态相关。

CD62L (L-Selectin)

淋巴细胞归巢受体。在初始中性粒细胞上高表达,介导其在血管壁上的滚动。 upon activation, CD62L被迅速酶切脱落,因此CD62L低表达是中性粒细胞活化的标志。

LOX-1 (OLR1)

凝集素样氧化低密度脂蛋白受体-1。是人源粒细胞样髓系来源的抑制性细胞(G-MDSC) 的一个关键标志物。肿瘤微环境中的许多中性粒细胞表现出G-MDSC的抑制性表型,LOX-1是鉴定这群细胞的重要工具。

CD181 (CXCR1)

IL-8受体之一。IL-8是中性粒细胞的主要趋化因子。CXCR1的表达水平影响中性粒细胞对肿瘤来源IL-8的响应能力,与其迁移和活化密切相关。

小结:通过检测CD62L(活化)、LOX-1(抑制性功能)、CXCR1(趋化能力)以及其他活化/粘附分子(CD54, CD83, CD49b),研究者可以区分中性粒细胞的不同成熟度、活化状态和功能极性(如N1 vs N2 TAN),从而评估它们在肿瘤微环境中的具体作用。

4 总结

这个抗体面板设计得非常精妙和全面:

  1. 骨架面板:进行最基础的细胞分类(是什么)。
  2. 扩展面板:在基础分类上进行深度免疫图谱分析(亚群是什么)。
  3. 专用面板:针对肿瘤微环境中关键但复杂的中性粒细胞群体进行专门的功能性表征(状态和功能如何)。

通过这种组合策略,研究者可以一次性从宝贵的临床样本中获取关于适应性免疫(T、B细胞)、固有免疫(NK、髓系细胞)、基质细胞(上皮、内皮)以及关键粒细胞亚群的极其丰富的信息,从而全面揭示NSCLC肿瘤微环境的免疫组成和细胞功能状态。

2.2 多重免疫荧光 Multiplex immunofluorescence

关于非小细胞肺癌(NSCLC)组织多重免疫荧光实验中所用抗体的作用。这段描述的核心是利用多重免疫荧光技术,在福尔马林固定石蜡包埋(FFPE)组织切片上,同时可视化多种免疫细胞和结构在原位的空间分布,这对于理解肿瘤微环境至关重要。

核心多重抗体组合解读

这个面板的设计旨在鉴定肿瘤微环境中最主要的免疫细胞群和肿瘤细胞本身

抗体

靶细胞/作用

在该实验中的意义

Cytokeratin (CK, 细胞角蛋白)克隆 AE1/AE3, C-11

上皮细胞 / 肿瘤细胞

定义肿瘤区域。这是最重要的标志物之一,用于勾勒出肿瘤细胞的边界(CD45- CK+),从而将免疫细胞与肿瘤细胞在空间上区分开。可以分析免疫细胞是浸润在肿瘤内部(浸润区)、位于肿瘤边界(侵袭前沿)还是存在于间质中。

CD3(多克隆)

总T细胞

鉴定所有的T淋巴细胞。CD3+细胞是肿瘤微环境中最重要的适应性免疫细胞。通过与CD8的组合,可以区分出CD3+CD8+(细胞毒性T细胞)和CD3+CD8-(主要为CD4+辅助T细胞)群体。

CD8克隆 C8/144B

细胞毒性T细胞

鉴定主要的效应杀伤细胞。CD8+ T细胞是直接杀伤肿瘤细胞的关键。其密度和空间位置(如是否靠近或侵入CK+肿瘤岛)是评估抗肿瘤免疫应答强度的关键指标。

CD20克隆 L26

B细胞

鉴定B淋巴细胞。B细胞可以发挥抗原提呈、产生抗体和免疫调节等功能。在肿瘤中,它们常形成三级淋巴结构,与更好的预后相关。

CD68克隆 PG-M1

巨噬细胞

鉴定大多数的组织巨噬细胞。CD68是一个广泛的巨噬细胞/单核细胞标志物。肿瘤相关巨噬细胞(TAMs)根据其表型可分为促炎(M1样)或免疫抑制/促血管生成(M2样)。PG-M1克隆主要识别成熟的组织巨噬细胞。

CD16克隆 EPR22409-124

Fcγ受体III

鉴定具有细胞毒性的免疫细胞。主要表达于:1. NK细胞(CD3- CD16+)2. 嗜中性粒细胞3. 一群特殊的CD68+巨噬细胞亚群(可能具有抗体依赖性细胞 phagocytosis/ADCP功能)。用于区分不同的髓系细胞亚群和NK细胞。

小结:通过这个核心组合,研究者可以回答:

  • 有哪些细胞? 可以量化T细胞(总CD3+、细胞毒CD8+)、B细胞(CD20+)、巨噬细胞(CD68+)、NK细胞(CD3- CD16+)和中性粒细胞(CD16+)等的密度。
  • 它们在哪里? 可以分析这些细胞与肿瘤细胞(CK+)的空间关系,例如:CD8+ T细胞是否浸润到肿瘤内部?B细胞是否形成聚集体?巨噬细胞在肿瘤区域和间质区域的分布有何不同?
扩展分析抗体组合解读

这个组合用于对特定的细胞群体,特别是中性粒细胞和巨噬细胞,进行更深入的功能亚群分析。

抗体

靶点/作用

在该实验中的意义

CD16(同上)

(同上)

在此与CXCR2和OLR1联用,用于精确圈定中性粒细胞群体(CD16+ CXCR2+)和某些巨噬细胞亚群。

CXCR2(C-X-C Motif Chemokine Receptor 2)

趋化因子受体

中性粒细胞的关键标志物和功能受体。CXCR2是介导中性粒细胞向炎症部位(如肿瘤)迁移的主要受体。其配体(如IL-8)在肿瘤中高表达。CD16+ CXCR2+ 双阳性细胞可以非常特异地鉴定为肿瘤相关中性粒细胞(TANs)。

OLR1 (LOX-1)(凝集素样氧化低密度脂蛋白受体-1)

清除受体

免疫抑制性髓系细胞的关键标志物。大量研究证实,LOX-1是人源粒细胞样髓系来源的抑制性细胞(G-MDSC) 的特异性标志物。在肿瘤中,许多中性粒细胞会获得G-MDSC的抑制性表型,CD16+ CXCR2+ LOX-1+ 的三阳性细胞很可能就是这群抑制T细胞功能、促进肿瘤进展的抑制性中性粒细胞。

小结:这个扩展组合的核心目的是:

  • 精确识别并区分中性粒细胞的功能状态
    • 常规/抗肿瘤中性粒细胞 (N1样):可能表现为 CD16+ CXCR2+ LOX-1-。
    • 抑制性/促肿瘤中性粒细胞 (N2样 / G-MDSC):表现为 CD16+ CXCR2+ LOX-1+。
  • 通过将LOX-1与核心面板中的CD68、CD8等结合,也可以分析表达LOX-1的其他髓系细胞群体。

2.3 整合的单细胞数据六大平台

10x Chromium (10x Genomics)、Smart-seq2,98 GEXSCOPE (Singleron), inDrop99 and Drop-Seq。

2.4 单细胞数据预处理与质控

部分数据作者使用的fq进行了重新定量,部分数据作者直接使用的原文来的表达矩阵。后续统一使用scanpy处理,生成 AnnData 对象。

这个表格包含了所有的单细胞RNA测序数据集及其相应的质控参数,不同的数据集阈值不一样(各位怎么看这个,都是同一种样本组织类型的数据,但是包含不同的测序技术):

  • min counts: 最小UMI数
  • max counts: 最大UMI数
  • min genes: 最小基因数
  • max genes: 最大基因数
  • max pet mito: 最大线粒体基因百分比,最小的是0,最大的事30%

Dataset

min counts

max counts

min genes

max genes

max pet mito

Adams_Kaminski_2020_COPD

1000

35000

500

10000

20

Chen_Zhang_2020_NSCLC

600

30000

250

10000

20

Goveia_Carmeliet_2020_NSCLC

600

30000

250

10000

20

Guo_Zhang_2018_NSCLC

20000

3000000

1000

20000

20

Habermann_Kropski_2020_pulmonary-fibrosis

600

30000

200

10000

20

Kim_Lee_2020_LUAD

1000

35000

300

10000

20

He_Fan_2021_LUAD

600

30000

250

10000

20

Lambrechts_2018_LUAD_6149v1

600

30000

200

10000

15

Lambrechts_2018_LUAD_6149v2

600

30000

250

10000

20

Lambrechts_2018_LUAD_6653

1200

40000

250

10000

20

Laughney_Massague_2020_NSCLC

1800

40000

500

10000

20

Madissoon_Meyer_2020_pulmonary-fibrosis

600

30000

300

10000

20

Maier_Merad_2020_NSCLC

1000

30000

400

10000

15

Maynard_Bivona_2020_NSCLC

20000

2000000

600

20000

30

Mayr_Schiller_2020_pulmonary-fibrosis

600

30000

250

10000

10

Reyfman_Misharin_2018_pulmonary-fibrosis

1000

30000

250

10000

20

Travaglini_Krasnow_2020_Lung_10x

1000

30000

500

10000

0

Travaglini_Krasnow_2020_Lung_SS2

20000

6000000

600

20000

30

UKIM-V

2000

100000

200

8000

30

Vieira_Teichmann_2019_asthma

600

30000

200

10000

20

Wu_Zhou_2021_NSCLC

600

30000

300

10000

30

Zilionis_Klein_2019_NSCLC

600

30000

200

10000

20

UKIM-V-2

1000

60000

200

8000

30

Leader_Merad_2021_10x_3p_v1_sort

600

30000

220

10000

10

Leader_Merad_2021_10x_3p_v2_beads_cite

600

30000

300

10000

25

Leader_Merad_2021_10x_3p_v2_beads

1000

30000

500

10000

20

Leader_Merad_2021_10x_3p_v2_digest-deadcell_cite

1000

30000

500

10000

20

Leader_Merad_2021_10x_3p_v2_sort

600

30000

250

10000

25

Leader_Merad_2021_10x_3p_v3_beads

600

30000

250

10000

30

Leader_Merad_2021_10x_5p_v1_beads

1100

30000

500

10000

25

Leader_Merad_2021_10x_5p_v1_CD2

1100

30000

500

10000

15

2.5 数据整合方法:scANVI

2.6 Doublet检测:SOLO algorithm

2.7 细胞注释

1)使用marker基因,Figure S1A

2)CD8+ T cell 细胞亚群注释:使用来自 Oliveira et al 的gene sets,这个挺有意思的,来自一篇Nature文献,标题《Phenotype, specificity and avidity of antitumour CD8(+) T cells in melanoma》

Figure S1A
Figure S1A

Figure S1A

2.8 细胞亚群丰度比较:scCODA model

组间比较细胞类型比例颇具挑战

  • 技术挑战: 不同单细胞数据集因实验条件、处理流程等存在差异,直接比较细胞比例可能不准确。
  • 本质挑战: 细胞类型比例是“组成性数据”。即,一种细胞比例的升高必然导致另一种或多种细胞比例的下降(因为它们总和为100%)。这种数据的相互依赖性使得传统的统计检验方法不再适用。
  • 该模型能够在校正了上述挑战后,可靠地鉴定出在不同组别间具有显著比例差异的细胞类型

2.9 RNA速率分析:velocyto.py and scvelo

2.10 信号通路、转录因子及细胞因子信号特征

分别使用PROGENy、DoROthEA和CytoSig工具,对原发性肿瘤样本进行了信号通路、转录因子及细胞因子信号传导活性分析。

2.11 CellPhoneDB 分析

使用了从 OmniPathDB 获取的 CellPhoneDB (CPDB) 数据库,以研究原发性肿瘤样本中细胞间通讯的差异。

2.22 SCISSOR 分析

利用SCISSOR将bulk RNA-seq实验获得的表型数据与我们的单细胞数据相关联。

2.23 补充资源

该单细胞图谱可通过 cell-x-gene (https://luca.icbi.at) 访问,这是一个基于网络的单细胞数据集可视化平台,支持元数据与基因表达数据的交互式展示。

step3:看作者的脚本细节

今天分享这么多,step3下一次继续从这里开始更新!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 资源介绍:
  • 核心图谱:a core NSCLC atlas
  • step0:数据和代码
    • 文章的数据队列,基本上都可以下载。提供的数据在这里:
    • Processed input data:https://doi.org/10.5281/zenodo.6411867
    • 可复现的代码:https://github.com/icbi-lab/luca
  • step1:下载作者提供的数据并探索
  • step2:看作者的分析方法细节
    • 2.1 Flow cytometry
      • 1. 核心抗体组合(12色骨架抗体 cocktail)
      • 2. 扩展分析抗体组合(8色)
      • 3. 中性粒细胞深度分析抗体组合(多个3色混合物)
      • 4 总结
    • 2.2 多重免疫荧光 Multiplex immunofluorescence
      • 核心多重抗体组合解读
      • 扩展分析抗体组合解读
    • 2.3 整合的单细胞数据六大平台
    • 2.4 单细胞数据预处理与质控
    • 2.5 数据整合方法:scANVI
    • 2.6 Doublet检测:SOLO algorithm
    • 2.7 细胞注释
    • 2.8 细胞亚群丰度比较:scCODA model
    • 2.9 RNA速率分析:velocyto.py and scvelo
    • 2.10 信号通路、转录因子及细胞因子信号特征
    • 2.11 CellPhoneDB 分析
    • 2.22 SCISSOR 分析
      • 2.23 补充资源
  • step3:看作者的脚本细节
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档