今天又是单细胞文献阅读写作时间,群里曾老板的任务已经发到写作14了,中间还跳过了一些没有写,今天看看写作任务12/13,这两个写作点是同一篇文献,咋一眼看老板发的字有点没有理解上来,先看看文献吧~
太长不看总结篇:可以使用单细胞亚群DEGs作为基因集做bulk转录组GSEA分析,侧面推断单细胞亚群比例变化吗?这里的单细胞数据与bulk转录组都是同一批病人取的white blood cells样本,我感觉奇怪的点在于:都有现成的单细胞数据了,为啥不直接用单细胞得到的亚群计算不同分组中的比例进行比较,而要转个弯去看bulk样本中推断的比例变化呢?我不理解...
下面是老板发布的写作内容:
【写作任务12】:
Bulk转录组差异分析,可以使用常见的单细胞亚群的特异性基因列表去做gsea分析,侧面推断单细胞亚群比例变化吗? 试试看处理 GSE267032 (bulk whiteblood cells), 看看bulk转录组里面的细胞亚群比例推断。 然后同时间处理, GSE267033 (single white blood cells), 看单细胞亚群比例
【写作任务13】:
常见的两分组单细胞亚群比例是很难有差异的,所以就。。。 Single-cell landscape of peripheral immune cells in MASLD/MASH Hepatology Communications 9(5):e0643, May 2025. | DOI: 10.1097/HC9.0000000000000643 GSE267031 (bulk liver), GSE267032 (bulk whiteblood cells), GSE267033 (single white blood cells), GSE267195 (superseries).
同样是这个数据集,大家试试看
上面提到的文献于2025年4月21号发表在 Hepatology Communications 杂志上,文献标题为:《Single-cell landscape of peripheral immune cells in MASLD/MASH》。里面有几个疾病相关的名词缩写:
数据包括22 个具有 MASLD/MASH的病人和14 个健康对照。所有患者均接受了肝活检以确认MASLD)/MASH的诊断,并评估疾病分期。此外,还从患者和健康对照组中收集了血液样本。
数据上传到了GEO,对应三个数据:
GSE267031 (bulk liver):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267031
GSE267031_counts_RNAseq_Liver.txt.gz 894.3 Kb (ftp)(http) TXT
GSE267031_tpm_RNAseq_Liver.txt.gz 1.0 Mb (ftp)(http) TXT
差异分析:padj<0.05, logFC >0.25
GSE267032 (bulk white blood cells):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267032
GSE267032_counts_RNASeq_WBC_bulk.txt.gz 1.5 Mb (ftp)(http) TXT
GSE267032_tpm_RNASeq_WBC_bulk.txt.gz 1.7 Mb (ftp)(http) TXT
差异分析:将按NAS分层的患者与健康对照组进行比较,发现随着NAS的增加,差异表达基因(DEG)的数量逐渐减少(补充图S3D)。总体而言,与健康对照组相比,患者中有63个基因存在差异表达。
GSE267033 (single white blood cells):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267033
GSE267033_counts_RNAseq_sc_WBC.txt.gz 68.0 Mb (ftp)(http) TXT
GSE267033_metadata_RNAseq_sc_WBC.txt.gz 742.7 Kb (ftp)(http) TXT
单细胞这里QC后,获得了29,890个单个免疫细胞的转录组图谱。图3A展示了MASLD患者(n=9)和对照组(n=6)所有主要外周血免疫细胞群的分布情况。识别出15个主要免疫细胞群,并利用文献中已知的细胞类型特异性标记基因对每个细胞簇进行注释(补充图S1C、表S4)。注释结果通过自动细胞类型注释工具CellTypist进行了交叉验证(补充图S4)。
利用单细胞数据对bulk RNA-seq数据进行反卷积分析(图3C),得到差异丰度(Differential abundance testing, DAT;图3B),首次揭示了 MASH/MASLD 患者与健康对照组相比血液中免疫细胞类型丰度变化。两种方法在主要细胞群中呈现一致趋势:与健康对照组相比,MASLD/MASH患者中性粒细胞整体富集,而CD8+记忆T细胞减少。主要免疫细胞群反卷积结果未显示显著变化,可能是由于这些大群体内部存在双向丰度变化(如图3B所示),表明特定亚群存在差异响应。
通过Scissor整合分析,发现中性粒细胞的一个亚群与MASLD正相关,另一个亚群与健康对照组相关。此外,单核细胞的一个亚群显示与对照组状态相关。这些发现与bulk-RNA seq分析结果(图2)一致,表明外周髓系细胞在MASLD中参与度增强。
以上就是相关的文献内容了!到这里我就理解老板的意思了,下面这就下载数据来做做看!
先看看单细胞的数据,下载下来两个文件:GSE267033_counts_RNAseq_sc_WBC.txt.gz 和 GSE267033_metadata_RNAseq_sc_WBC.txt.gz
读取并创建seurat对象:
###
### Create: Jianming Zeng
### Date: 2023-12-31
### Email: jmzeng1314@163.com
### Blog: http://www.bio-info-trainee.com/
### Forum: http://www.biotrainee.com/thread-1376-1-1.html
### CAFS/SUSTC/Eli Lilly/University of Macau
### Update Log: 2023-12-31 First version
### Update Log: 2024-12-09 by juan zhang (492482942@qq.com)
###
rm(list=ls())
options(stringsAsFactors = F)
library(ggsci)
library(dplyr)
library(future)
library(Seurat)
library(clustree)
library(cowplot)
library(data.table)
library(ggplot2)
library(patchwork)
library(stringr)
library(qs)
library(Matrix)
# 创建目录
getwd()
###### step1: 导入数据 ######
ct <- data.table::fread("GSE267033/GSE267033_counts_RNAseq_sc_WBC.txt.gz",data.table = F)
ct[1:5, 1:5]
dim(ct)
rownames(ct) <- ct[,1]
ct <- ct[,-1]
ct[1:5, 1:5]
phe <- data.table::fread('GSE267033/GSE267033_metadata_RNAseq_sc_WBC.txt.gz',data.table = F)
head(phe)
table(phe$sampleID)
rownames(phe) <- phe[,1]
phe <- phe[,-1]
table(phe$sampleID)
identical(rownames(phe),colnames(ct))
# 创建对象
sce.all <- CreateSeuratObject(counts = ct, meta.data = phe, min.cells = 3)
sce.all
# 查看特征
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$orig.ident)
table(sce.all$sampleID)
sce.all$orig.ident <- gsub("White_blood_cells_","",sce.all$sampleID)
library(qs)
qsave(sce.all, file="GSE267033/sce.all.qs")
未完待续~
如果你也好奇感兴趣上面的问题,一起来做做看~