首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >看看这个单细胞数据分析思路是不是感觉哪里有点奇怪?

看看这个单细胞数据分析思路是不是感觉哪里有点奇怪?

作者头像
生信技能树
发布2025-07-08 19:08:56
发布2025-07-08 19:08:56
14900
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

今天又是单细胞文献阅读写作时间,群里曾老板的任务已经发到写作14了,中间还跳过了一些没有写,今天看看写作任务12/13,这两个写作点是同一篇文献,咋一眼看老板发的字有点没有理解上来,先看看文献吧~

太长不看总结篇:可以使用单细胞亚群DEGs作为基因集做bulk转录组GSEA分析,侧面推断单细胞亚群比例变化吗?这里的单细胞数据与bulk转录组都是同一批病人取的white blood cells样本,我感觉奇怪的点在于:都有现成的单细胞数据了,为啥不直接用单细胞得到的亚群计算不同分组中的比例进行比较,而要转个弯去看bulk样本中推断的比例变化呢?我不理解...

下面是老板发布的写作内容:

【写作任务12】:

Bulk转录组差异分析,可以使用常见的单细胞亚群的特异性基因列表去做gsea分析,侧面推断单细胞亚群比例变化吗? 试试看处理 GSE267032 (bulk whiteblood cells), 看看bulk转录组里面的细胞亚群比例推断。 然后同时间处理, GSE267033 (single white blood cells), 看单细胞亚群比例

【写作任务13】:

常见的两分组单细胞亚群比例是很难有差异的,所以就。。。 Single-cell landscape of peripheral immune cells in MASLD/MASH Hepatology Communications 9(5):e0643, May 2025. | DOI: 10.1097/HC9.0000000000000643 GSE267031 (bulk liver), GSE267032 (bulk whiteblood cells), GSE267033 (single white blood cells), GSE267195 (superseries).

同样是这个数据集,大家试试看

文献信息

上面提到的文献于2025年4月21号发表在 Hepatology Communications 杂志上,文献标题为:《Single-cell landscape of peripheral immune cells in MASLD/MASH》。里面有几个疾病相关的名词缩写:

  • MASLD:Metabolic dysfunction–associated steatotic liver disease,代谢功能障碍相关脂肪性肝病。这是一种与代谢功能障碍密切相关的肝脏疾病,其主要特征是肝脏脂肪堆积。代谢功能障碍可能包括胰岛素抵抗、血脂异常、肥胖等代谢问题,这些因素共同导致肝脏脂肪代谢异常,从而引发肝脏脂肪堆积。
  • MASH:Metabolic-associated steatohepatitis,代谢相关脂肪性肝炎。这是MASLD的更严重形式,除了肝脏脂肪堆积外,还伴有肝细胞炎症和损伤。炎症和损伤可能导致肝纤维化,进一步发展为肝硬化甚至肝癌,对患者的健康造成更严重的威胁。
  • NAFLD:Non-alcoholic fatty liver disease,非酒精性脂肪性肝病。这是一种传统的术语,用于描述与饮酒无关的肝脏脂肪堆积。然而,这个术语没有明确强调代谢功能障碍在疾病发生中的核心作用。
  • NASH:Non-alcoholic steatohepatitis,非酒精性脂肪性肝炎。这是NAFLD的更严重形式,同样存在肝脏炎症和损伤,但与MASLD和MASH相比,其命名没有突出代谢因素的重要性。
  • NAS, 全称 NAFLD activity score:疾病活动评分disease activity scores (NAFLD activity score [NAS],这个打分是怎么做的呢?

数据背景

数据包括22 个具有 MASLD/MASH的病人和14 个健康对照。所有患者均接受了肝活检以确认MASLD)/MASH的诊断,并评估疾病分期。此外,还从患者和健康对照组中收集了血液样本。

图片
图片

GSE267031 (bulk liver)

数据上传到了GEO,对应三个数据:

GSE267031 (bulk liver):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267031

代码语言:javascript
代码运行次数:0
运行
复制
GSE267031_counts_RNAseq_Liver.txt.gz 894.3 Kb (ftp)(http) TXT
GSE267031_tpm_RNAseq_Liver.txt.gz 1.0 Mb (ftp)(http) TXT

差异分析:padj<0.05, logFC >0.25

  • medium NAS vs low NAS : 388个DEGs
  • high NAS vs  low NAS : 1212个DEGs
图片
图片

GSE267032 (bulk white blood cells)

GSE267032 (bulk white blood cells):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267032

代码语言:javascript
代码运行次数:0
运行
复制
GSE267032_counts_RNASeq_WBC_bulk.txt.gz 1.5 Mb (ftp)(http) TXT
GSE267032_tpm_RNASeq_WBC_bulk.txt.gz 1.7 Mb (ftp)(http) TXT

差异分析:将按NAS分层的患者与健康对照组进行比较,发现随着NAS的增加,差异表达基因(DEG)的数量逐渐减少(补充图S3D)。总体而言,与健康对照组相比,患者中有63个基因存在差异表达。

图片
图片
图片
图片

GSE267033 (single white blood cells)

GSE267033 (single white blood cells):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE267033

代码语言:javascript
代码运行次数:0
运行
复制
GSE267033_counts_RNAseq_sc_WBC.txt.gz 68.0 Mb (ftp)(http) TXT
GSE267033_metadata_RNAseq_sc_WBC.txt.gz 742.7 Kb (ftp)(http) TXT

单细胞这里QC后,获得了29,890个单个免疫细胞的转录组图谱。图3A展示了MASLD患者(n=9)和对照组(n=6)所有主要外周血免疫细胞群的分布情况。识别出15个主要免疫细胞群,并利用文献中已知的细胞类型特异性标记基因对每个细胞簇进行注释(补充图S1C、表S4)。注释结果通过自动细胞类型注释工具CellTypist进行了交叉验证(补充图S4)。

利用单细胞数据对bulk RNA-seq数据进行反卷积分析(图3C),得到差异丰度(Differential abundance testing, DAT;图3B),首次揭示了 MASH/MASLD 患者与健康对照组相比血液中免疫细胞类型丰度变化。两种方法在主要细胞群中呈现一致趋势:与健康对照组相比,MASLD/MASH患者中性粒细胞整体富集,而CD8+记忆T细胞减少。主要免疫细胞群反卷积结果未显示显著变化,可能是由于这些大群体内部存在双向丰度变化(如图3B所示),表明特定亚群存在差异响应。

图片
图片

通过Scissor整合分析,发现中性粒细胞的一个亚群与MASLD正相关,另一个亚群与健康对照组相关。此外,单核细胞的一个亚群显示与对照组状态相关。这些发现与bulk-RNA seq分析结果(图2)一致,表明外周髓系细胞在MASLD中参与度增强。

图片
图片

以上就是相关的文献内容了!到这里我就理解老板的意思了,下面这就下载数据来做做看!

单细胞数据处理 GSE267033

先看看单细胞的数据,下载下来两个文件:GSE267033_counts_RNAseq_sc_WBC.txt.gz 和 GSE267033_metadata_RNAseq_sc_WBC.txt.gz

读取并创建seurat对象:

代码语言:javascript
代码运行次数:0
运行
复制
###
### Create: Jianming Zeng
### Date:  2023-12-31  
### Email: jmzeng1314@163.com
### Blog: http://www.bio-info-trainee.com/
### Forum:  http://www.biotrainee.com/thread-1376-1-1.html
### CAFS/SUSTC/Eli Lilly/University of Macau
### Update Log: 2023-12-31   First version 
### Update Log: 2024-12-09   by juan zhang (492482942@qq.com)
### 
rm(list=ls())
options(stringsAsFactors = F)
library(ggsci)
library(dplyr) 
library(future)
library(Seurat)
library(clustree)
library(cowplot)
library(data.table)
library(ggplot2)
library(patchwork)
library(stringr)
library(qs)
library(Matrix)

# 创建目录
getwd()
###### step1: 导入数据 ######
ct <- data.table::fread("GSE267033/GSE267033_counts_RNAseq_sc_WBC.txt.gz",data.table = F)
ct[1:5, 1:5]
dim(ct)
rownames(ct) <- ct[,1]
ct <- ct[,-1]
ct[1:5, 1:5]

phe <- data.table::fread('GSE267033/GSE267033_metadata_RNAseq_sc_WBC.txt.gz',data.table = F)
head(phe)
table(phe$sampleID)
rownames(phe) <- phe[,1]
phe <- phe[,-1]
table(phe$sampleID)
identical(rownames(phe),colnames(ct))

# 创建对象
sce.all <- CreateSeuratObject(counts = ct, meta.data = phe, min.cells = 3)
sce.all

# 查看特征
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$orig.ident) 
table(sce.all$sampleID)
sce.all$orig.ident <- gsub("White_blood_cells_","",sce.all$sampleID)

library(qs)
qsave(sce.all, file="GSE267033/sce.all.qs")

未完待续~

如果你也好奇感兴趣上面的问题,一起来做做看~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文献信息
  • 数据背景
    • GSE267031 (bulk liver)
    • GSE267032 (bulk white blood cells)
    • GSE267033 (single white blood cells)
  • 单细胞数据处理 GSE267033
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档