文章标题:《Single-cell RNA sequencing reveals the epithelial cell heterogeneity and invasive subpopulation in human bladder cancer》
发表日期和杂志:2021年发表在MOLECULAR CANCER BIOLOGY上
在线阅读链接:https://doi.org/10.1002/ijc.33794
疾病简介
膀胱癌是一种高度异质性的疾病,膀胱癌是一种常见的恶性肿瘤,起源于膀胱内壁的上皮细胞。它是泌尿系统中最常见的癌症之一。
膀胱癌的症状可能包括血尿、尿频、尿急、尿痛、腰痛等。早期膀胱癌通常没有明显症状,因此定期进行尿液检查和膀胱镜检查对于早期发现和诊断膀胱癌非常重要。
单细胞实验设计与验证
采用10X Genomics平台生成7例膀胱癌患者的7个原发肿瘤样本和1个癌旁组织样本的单细胞mRNA谱,获得了从7名患者中分离的36619个单细胞的转录谱。
数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135337
一共是八个样品,7例膀胱癌患者的7个原发肿瘤样本和1个癌旁组织样本的单细胞mRNA谱,提供的是txt.gz格式的压缩文件,直接下载后存放到对应的文件夹即可。
#samples
GSM4006644 BC1-scRNA
GSM4006645 BC2-scRNA
GSM4006646 BC3-scRNA
GSM4006647 BC4-scRNA
GSM4006648 BC5-scRNA
GSM4751267 BC6-scRNA
GSM4751268 BC7-scRNA
GSM5329919 BCN-scRNA
#数据格式
GSM4006644_BC1_gene_cell_exprs_table.txt.gz 11.7 Mb
GSM4006645_BC2_gene_cell_exprs_table.txt.gz 13.1 Mb
GSM4006646_BC3_gene_cell_exprs_table.txt.gz 8.1 Mb
GSM4006647_BC4_gene_cell_exprs_table.txt.gz 8.1 Mb
GSM4006648_BC5_gene_cell_exprs_table.txt.gz 18.3 Mb
GSM4751267_BC6_gene_cell_exprs_table.txt.gz 14.3 Mb
GSM4751268_BC7_gene_cell_exprs_table.txt.gz 11.1 Mb
GSM5329919_BCN_gene_cell_exprs_table.xls.gz 11.4 Mb
对于txt.gz格式的压缩文件,我们可以先使用fread函数循环读取所有的数据,然后在将其按照基因数量对齐,再合并为一个大矩阵即可
dir='GSE135337_RAW/'
samples=list.files( dir ,pattern = 'gz')
samples
library(data.table)
ctList = lapply(samples,function(pro){
# pro=samples[1]
print(pro)
ct=fread(file.path( dir ,pro),data.table = F)
ct[1:4,1:4]
rownames(ct)=ct[,1]
colnames(ct) = paste(gsub('.txt.gz','',pro),
colnames(ct) ,sep = '_')
ct=ct[,-1]
return(ct)
})
#合并样品
lapply(ctList, dim)
tmp =table(unlist(lapply(ctList, rownames)))
cg = names(tmp)[tmp==length(samples)]
bigct = do.call(cbind,
lapply(ctList,function(ct){
ct = ct[cg,]
return(ct)
}))
sce.all=CreateSeuratObject(counts = bigct,
min.cells = 5,
min.features = 300)
sce.all
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all@meta.data$orig.ident)
后面就是标准分析啦,对读取进来的数据进行质控、harmony整合以及单细胞细分亚群定义等。
筛选低质量细胞后,共获得36619个细胞,并使用UMAP图进行可视化。
通过去除批效应,细胞整合得很好,聚集成15个簇。根据它们的特征基因和从文献中整理的典型细胞类型标记来定义每个簇的细胞类型
恶性细胞的基因表达程序分析
为了全面描述恶性细胞中ITH的特征,应用非负矩阵因式分解(NMF)分析来提取每个肿瘤中ITH的完整转录谱。总共确定了64个签名模块,通过层次聚类进一步将其分组为六个主要的元程序
基底细胞样瘤细胞分析发现具有EMT特征
为了对基础/管腔层次有更多的了解,文章中接着关注了两个T1肿瘤(BC2和BC3)。推测CNV分析显示,BC2和BC3的基底细胞和残留的管腔样细胞均有明显的CNV,表明它们都是恶性细胞。
通过对差异基因DEG进行分析,发现两个患者的基底样瘤细胞都显著表达了与EMT状态相关的基因