首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CancerSCEM: 人类癌症单细胞表达图谱数据库

CancerSCEM: 人类癌症单细胞表达图谱数据库

作者头像
生信技能树jimmy
发布于 2021-11-19 03:05:12
发布于 2021-11-19 03:05:12
1.1K0
举报
文章被收录于专栏:单细胞天地单细胞天地

文章信息

文章题目:CancerSCEM: a database of single-cell expression map across various human cancers 日期:2021-09-29 期刊:Nucleic Acids Research DOI:https://doi.org/10.1093/nar/gkab905

一句话概括

一个包含人类多种癌症的scRNA数据库CancerSCEM,除了常规的分析之外,还提供网站可视化和在线分析(https://ngdc.cncb.ac.cn/cancerscem)

为什么要建这个数据库?

  • 首先肯定是因为目前产生了大量的数据集,但是公共的数据库不多,比如Single Cell Portal,PanglaoDB,Single Cell ExpressionAtlas,Human Cell Atlas Data Portal,scRNASeqDB,大部分是人和小鼠的数据。但是这些数据库只做了初步的分析,比如细胞分群、差异分析
  • 还有一些专注于疾病的scRNA数据库,比如CancerSEA、TISCH,它们提供了额外的注释和富集分析等。但CancerSEA当时只做了某些类型和某些状态下的细胞,TISCH又没有提供统一的标准化矩阵,容易导致后面用户拿到后引入批次效应

所以,CancerSCEM (Cancer Single-cell Ex- pression Map) 提供了数据搜集、整理、分析、可视化一体。目前包括人类20种癌症的208个样本的638,341个单细胞数据

数据搜集

数据来自:GEO、ArrayExpress、EBI、GSA、ZENODO,涵盖了10X Genomics, Smart-seq2, Drop-seq, Seq-Well and Microwell 5大平台,其中原始数据占比82.69%。

  • 10X数据采用cellranger V5处理;
  • 非10X数据使用Fastp+Trimmomatic+zUMIs处理

常规数据处理

质控

  • DoubletFinder用于doublets去除(标准是7% per 10 000 cells)
  • Seurat V3 进行初步质控过滤:200 ≤ nfeatures ≤ 5000 and MT < 10%

非监督聚类

PCA + tSNE + UMAP 聚类

细胞类型注释

biomarker 基因来自Cell Marker数据库,细胞注释三步走:

  • scCancer v2.2.0 + Copy- KAT v1.0.4:copy number variation assessment A group of marker genes, such as EPCAM, KRT8, KRT18, KRT19 and EGFR in glioblastoma cells that represent cancer cells or cancer stem cells, were investi- gated in parallel. Cells with significantly abnormal CNV levels and high expression levels of above marker genes were defined as malignant cells
  • Manual annotation :自己看marker基因表达 常见的比如:T cells (e.g. CD3D, CD3E), B cells (e.g. MS4A1, BANK1), Macrophages/Monocytes (e.g. CD68, CD14), Mast cells (e.g. SLC18A2, ASIC4), Endothelial cells (e.g. VWF, PECAM1), Fibroblasts (e.g. FAP, NECTIN1), Oligoden- drocytes (e.g. OLIG1, PLP1) and Astrocytes (e.g. SLC1A3, GFAP) 网站的Documents也给出了所使用的全部marker基因列表
  • SingleR: 工具注释

此外,还将T、B细胞继续进行细分亚群,最终得到了包括免疫细胞在内的33种细胞类型

差异分析

FindMarkers用来对每个细胞群进行差异分析

个性化处理步骤

  • 拿到受配体基因对:来自CelltalkDB、SingleCellSingalR、Cellinker、Cell–Cell Interaction Database、综述文章
  • 拿到Oncogenes and tumor suppressor genes(TSG):来自Cancer Gene Census (CGC)、OncoKB、Network of Cancer Genes (NCG)、TSGene、IntOGene、cancer gene clinical care study。
  • 对这些基因进行了过滤(至少在三个数据库中存在,并且在数据集呈现出类似的表达模式)
  • 拿到TCGA 的13个癌症项目的bulk RNAseq数据,看在不同癌症的组织水平上这些基因的表达模式,也当做scRNA的参考
  • 用之前得到的差异基因进行GO、KEGG富集
  • 用Hmisc进行基因表达关联分析
  • 细胞通讯用CellphoneDB
  • 生存分析用survival + survminer

数据库构建

  • 前端:Thymeleaf (a Java template engine), HTML5, CSS, AJAX, JQuery and Bootstrap
  • 后端:Spring Boot
  • 数据存储MySQL
  • 数据读取:Mybatis
  • 交互图:Echarts, Highcharts, svg3dtagcloud.js and plotly.js
  • 表格:Bootstrap Table
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
单细胞专题 | 9.如何人工注释单细胞类群?
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入 单细胞专题 | 7.单细胞下游分析——常规分析流程案例一 单细胞专题 | 8.单细胞类型注释之SingleR包详解
DoubleHelix
2022/12/16
7.8K0
单细胞专题 | 9.如何人工注释单细胞类群?
单细胞测序最好的教程(六):细胞类型注释
作者按 本教程将是本系列教程中最重要的一章,我们后续所有的单细胞分析,都要基于准确的细胞类型注释。本系列教程首发于“[单细胞最好的中文教程](single_cell_tutorial Readthedocs[1])”,未经授权许可,禁止转载。 全文字数|预计阅读时间: 4500|5min ——Starlitnightly
生信技能树jimmy
2023/08/31
4.7K0
单细胞测序最好的教程(六):细胞类型注释
单细胞转录组探索乳腺癌来源的内皮细胞
文章发表于:Oncotarget. 2018; 题目是:Single-cell RNA sequencing reveals gene expression signatures of breast cancer-associated endothelial cells
生信技能树jimmy
2020/03/27
6950
什么,你想要的单细胞亚群比例太少了?
本专辑将会系统性介绍单细胞图谱研究的标准数据分析思路,前面提到了:肿瘤样品的单细胞需要提取上皮细胞继续细分,眼尖的小伙伴们发现了一个问题, 就是它这个肝癌数据集里面的fibroblasts等细胞亚群占比非常少,如果真的要每个细胞亚群都继续细分, 对比例少的细胞分析起来会有误差。 我们再回顾一下这个发表于2020的文章,标题 是:《Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic
生信技能树jimmy
2021/10/20
1.1K0
什么,你想要的单细胞亚群比例太少了?
单细胞测序揭示阿尔兹海默症的B细胞相关标志物
(3)然后文章对每一种细胞类型的进行了AD/Normal差异基因分析,以B细胞为例。
生信技能树jimmy
2022/03/14
1.3K0
单细胞测序揭示阿尔兹海默症的B细胞相关标志物
huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库
人类适应性免疫系统是免疫系统的一个分支,负责特定抗原识别和清除。通过与特定抗原的相互作用,适应性免疫系统被激活,并可以存储针对目标抗原的长期免疫记忆。因此,具有高抗原特异性的长期免疫记忆可以在随后暴露于抗原期间产生更强大的反应。适应性免疫反应激活需要 T 或 B 细胞上表达的受体识别抗原,分别称为 T 细胞受体 (TCR) 或 B 细胞受体 (BCR)。
生信技能树jimmy
2022/03/14
9730
huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库
CancerSEA ,一个上古时代的癌症单细胞数据库资源
可以看到, 在这个CancerSEA发表之后,他们居然还更新了两个数据集,有意思,一般来说大家发文章后“逃之夭夭”了,很少会继续维护的。(也算是数据库资源网页工具领域的一股清流)
生信技能树
2022/03/03
1.8K0
CancerSEA ,一个上古时代的癌症单细胞数据库资源
人类乳腺癌单细胞及空间分辨率图谱
乳腺癌可以根据雌激素受体(estrogen receptor, ER)、孕激素受体(progesterone receptor, PR)的表达以及人表皮生长因子受体2(HER2)的过度表达或HER2基因ERBB2的扩增,分为三种广泛的亚型:luminal (ER+,PR+/−);HER2+(HER2+,ER+/−,PR+/−);和三阴性乳腺癌(TNBC;ER−PR−HER2−)。乳腺癌还根据使用PAM50分为五种“内在”分子亚型:luminal(LumA和LumB)、HER2富集(HER2E)、基底样basal-like和正常样normal-like。
生信技能树jimmy
2023/11/18
6550
人类乳腺癌单细胞及空间分辨率图谱
CNS子刊思路大放送
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。而且这些亚群都可以继续细分:
生信技能树
2023/02/27
5380
CNS子刊思路大放送
读文献06-纯生信挖掘找到与黑色素瘤预后相关的T细胞亚型及肿瘤激活相关基因集
In this study, we utilized scRNA-seq profiles of CD8+ T cells in melanoma to derive a cluster of tumor-reactive T cells, and further developed a tumor-reactive signature (TRS) to indicate the tumor reactivity of tumor samples. We validated the ability of distinguishing tumor-reactive cells or cell groups of the TRS in multiple cohorts. Furthermore, we demonstrated significant correlation of the TRS with clinical outcomes and response to immunotherapy of melanoma patients
北野茶缸子
2022/12/10
5980
读文献06-纯生信挖掘找到与黑色素瘤预后相关的T细胞亚型及肿瘤激活相关基因集
胃上皮细胞单细胞亚群
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。比如 Clin Cancer Res 2021; 的文章《Spatially Distinct Reprogramming of the Tumor Microenvironment Based On Tumor Invasion in Diffuse-Type Gastric Cancers 》,就是如此的第一层次降维聚类分群:
生信技能树jimmy
2022/04/18
1.5K0
胃上皮细胞单细胞亚群
免疫治疗前后T细胞亚群比例变化真的重要吗?准确吗?
全部的7个癌症相关样品的10x单细胞转录组数据的整合后走单细胞标准流程,降维聚类分群,一般来说肿瘤样品的单细胞就应该是首先是按照如下所示的标记基因进行第一次分群 :
生信技能树jimmy
2021/10/20
1K0
免疫治疗前后T细胞亚群比例变化真的重要吗?准确吗?
不应该让细胞数量成为你单细胞项目的限制
不应该是盲目追求细胞数量的增加,普通的单细胞数据分析其实并不受细胞数量的影响而有所不同。让我们看看同济大学最近发表的文章 Cell Death and Disease (2022)13:23 ; https://doi.org/10.1038/s41419-021-04477-y ,标题是:《Single-cell transcriptomic analysis reveals the critical molecular pattern of UV-induced cutaneous squamous cell carcinoma》
生信技能树
2022/03/03
7760
不应该让细胞数量成为你单细胞项目的限制
单细胞转录组数据处理之细胞亚群注释
因为参数需要自己摸索和调整,所以其实拿到细胞亚群数量是因而而异的,取决于你前面降维的程度,分群的算法和参数。不过最重要的是拿到了不同细胞亚群后需要对它进行命名,给出生物学的解释。不同的人分析同一个数据集,有略微不同的结果是可以接受的,保证自己的生物学故事圆满即可。
生信技能树jimmy
2020/03/27
5.6K0
现在单细胞还想“水”CNS恐怕得多组学了
两年前大家仍的都是一些图谱类的研究,不同的物种不同的器官组织测个十万左右的单细胞就是CNS文章啦,因为都是开创性的研究啊。微信群的大伙都是酸这些CNS说,只有有经费就可以“水”几篇。
生信技能树
2020/10/26
9760
现在单细胞还想“水”CNS恐怕得多组学了
单细胞亚群的生物学命名的4个规则
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
生信技能树
2024/04/13
9200
单细胞亚群的生物学命名的4个规则
【生信文献200篇】28 单细胞又发oncotarget了
英文标题: Single-cell RNA sequencing reveals gene expression signatures of breast cancer-associated endothelial cells
生信菜鸟团
2021/04/29
4900
【生信文献200篇】28 单细胞又发oncotarget了
人类胸腺发育的细胞图谱揭示了T细胞组库的形成
INTRODUCTION:胸腺(thymus)是 T 细胞发育和 T 细胞受体(T cell receptor, TCR)组库形成的重要器官,塑造了机体的适应性免疫。T 细胞的胸腺内发育有空间协调性,受胸腺微环境(thymic microenvironment)多种细胞类型的精细调节。尽管胸腺在多种动物模型中被广泛研究,目前尚缺少一份完整的人类胸腺图谱帮助我们理解人体免疫系统。
生信技能树jimmy
2021/04/16
4K1
人类胸腺发育的细胞图谱揭示了T细胞组库的形成
跟着小鱼头学单细胞测序-scRNA-seq数据的预处理与质控
前两期scRNA-seq分享讲到了测序的原理、应用以及测序方法,今天就进入了数据分析阶段了。scRNA-seq 与 bulk -RNA-seq 同样是RNA的通量测序数据,在前期质控与后期分析都有什么异同?今天就先聊一聊scRNA-seq的质控,让你对scRNA-seq质控有个基础而又详实的了解,避免掉坑。
作图丫
2022/03/29
9590
跟着小鱼头学单细胞测序-scRNA-seq数据的预处理与质控
肿瘤样品的单细胞需要提取上皮细胞继续细分
然后每个亚群进行第二层次细分亚群,甚至第三层次,第四次分群,结构清晰明了。我们以上皮细胞亚群的 细分来举例说明每个分析点的工作量:
生信技能树jimmy
2021/10/20
4.7K0
肿瘤样品的单细胞需要提取上皮细胞继续细分
推荐阅读
相关推荐
单细胞专题 | 9.如何人工注释单细胞类群?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档