毕竟在文章《A scalable SCENIC workflow for single-cell gene regulatory network analysis》,有这个时间消耗对比,不服不行!
如下图所示,我目前对sce结构的理解是,围绕scRNA-seq的原始count数据,储存了4组相关信息
由于浏览器都有同源加载策略,不能加载不同域下的文件、也不能使用不合要求的协议比如file进行访问。 在angularJs中为了避免安全漏洞,一些ng-src或者ng-include都会进行安全校验,因此常常会遇到一个iframe中的ng-src无法使用。 什么是SCE SCE,即strict contextual escaping,我的理解是 严格的上下文隔离 ...翻译的可能不准确,但是通过字面理解,应该是angularjs严格的控制上下文访问。 由于angular默认是开启SCE的,因此也就是说
批量转录组测序可以为组织或细胞系的整体基因表达提供信息但无法解析不同细胞间的异质性问题;单细胞测序则可提供每个单个细胞的基因表达特征,允许研究者探索细胞类型、细胞状态、细胞亚群等更细致的分子特征。由于单细胞测序数据具有高度异质性,因此需要特定的数据分析方法来处理和解释数据,如聚类分析、降维算法等。这里意味着单细胞测序分析要比批量转录组的分析更为发杂。
新鲜出炉(2023年5月)的文章:《Fueling sentinel node via reshaping cytotoxic T lymphocytes with a flex-patch for
其实单细胞领域进展太快,我那些课程内容关于R包相关的代码基本上过时了,因为R语言本身都经历了一个超级大的变革!考虑到不能把粉丝带歪,我早就全部公开了系列视频课程。还创立了《单细胞天地》这个公众号 :
前面的学习中我们已经掌握了基本的单细胞上下游分析流程,接下来就是两个基本方向,①加深对基础流程代码的理解,夯实基础;②在基础上拓宽加深。而在学bulk转录组分析时我也是跟着转录组周更走下来,所以接下来本专辑将会开启一部分单细胞周更的跟学,在更加细致地深入、夯实基础代码的同时进行进阶。
这期学习这篇推文:多分组单细胞转录组测序样本第一层次未整合和整合数据的B细胞细分对比
最近我就接到一个粉丝咨询,说他想处理一个公共数据集,只有8个原位肿瘤+3个转移肿瘤的10X单细胞转录组样品,但是数据处理的过程发现系统提示说需要5Tb内存,虽然说他自己有一个512G内存的服务器,但是也承受不起5Tb内存,问我有没有渠道!
另外,前两天在《生信技能树》和《单细胞天地》等公众号都推出来了一个10X单细胞转录组钜惠套餐,详见:2个分组的单细胞项目标准分析,原价15~20万的6个10x单细胞转录组套餐,现价10万。其实本文介绍的就是:敲除Dnmt1基因前后分组的两个单细胞转录组数据分析。
然后我们把这个代码移植到了转录组测序数据集,详见:表达量芯片的代码当然是可以移植到转录组测序数据分析,它实际上并不是真正的时间序列采样的转录组,仅仅是因为疾病的状态具有连续性而已。以看到:
数据链接 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE175687 获取数据: 这里给大家介绍一下我个人下载时发现的一个小技巧 我想要下
比如我们在做猪的单细胞数据分析时,首先进行质控,当我们想要过滤线粒体基因时,采用常规的MT开头的基因进行过滤,会发现找不到基因。举个例子:
要自己做一个聊天室 在这里写下思路 聊天室,首先就是要有信息的收发 也就是收集和显示 信息显示 chatinfo.jsp <body>
这些低质量细胞因为“低质量的相似性”在聚类时聚成一个单独的cluster,但这个cluster本身是没有任何生物意义的;反而会干扰后续的差异分析、细胞注释、拟时序分析等步骤
但是,实际上在线人数可以用session实现,而已上线人数应该用servletcontext实现.
历经10年左右发展,单细胞测序技术目前有两大主流平台。分别是10X Genomics(Droplet-based)与Smart-seq2(Plate-based with reads),各有优劣。
今天我们来分享一个关于蛋白活性推断的内容,最近一段时间因为一篇文章的发表,运用基因表达来推断蛋白活性,文章在Single-cell protein activity analysis identifies recurrence-associated renal tumor macrophages,杂志 Cell,顶刊,其中就用到了单细胞转录组数据来推断蛋白活性,其中用到的软件是viper,2021年5月的一个软件,值得关注。
这样的文件很明显没办法给我们跑单细胞转录组流程,看了看原文:《Single-cell RNA sequencing reveals B cell–related molecular biomarkers for Alzheimer’s disease》,其实在《单细胞天地》有它的介绍:单细胞测序揭示阿尔兹海默症的B细胞相关标志物
根据生信技能树发布的学徒作业:SingleR说是NK细胞你就相信了吗, 验证一下看真的是有这么多NK细胞
然后就是花费了从早上9点至下午4点的运行过程,流程是初级流程,时间是好几倍,这时间可以跑完别的一整篇了,果然不可高攀。 乍一看去,这些图不算难呀,可能这个PI和TI的设定得多花点时间琢磨一下
本部分选择2020年发表在Genome Med 中的单细胞文章(Single-cell transcriptome analysis of tumor and stromal compartments of pancreatic ductal adenocarcinoma primary tumors and metastatic lesions ),其中含有pancreatic ductal adenocarcinoma的10个原发 以及 6个转移样本数据。 后续会依据此数据集进行一些单细胞常
在单细胞大行其道的近两年,我也安排了学徒们做了几百个有表达量矩阵可以下载的单细胞转录组文献图表复现,挑选其中100个成功的案例,提供代码给大家,希望对大家有帮助!
首先下载数据 https://data.mendeley.com/datasets/5nnw8xrh5m/1
我们选择的数据已经发表的文章题目是“Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations”,2018年发表在nature communications上,数据存在GSE115469。
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE151177
所以我给他的建议是不管三七二十一,先分群,然后看每个亚群功能异质性,给出注释,并且给出临床生存分析结果。
但是因为我接触单细胞有点早,是2017附近,那个时候经历了Seurat的v2变成v3的大更新,跟现在的小伙伴们经历了v4变成v5是一样的困扰,所以其实我从来就没有在我的代码里面做SCTransform,因为早期的 NormalizeData(), ScaleData(), FindVariableFeatures()三个函数,使用的也挺好的。但是最近学徒表示他发现了这里面的细节差异而且百思不得其解,所以我归纳汇总了一些学徒的探索,让大家一起看看是咋回事!
学徒作业的要求是:从上面的数据集GSE217845里面的10个胰腺癌的10x技术单细胞转录组数据的第一层次降维聚类分群里面提前髓系免疫细胞后,继续细分降维聚类拿到里面的巨噬细胞,然后继续细分巨噬细胞看看能否复现文章里面的:
Scater需要利用SingleCellExperiment这个对象(需要注意的是,官方友情提示,在导入对象之前,最好是将表达量数据存为矩阵)
搜索推文发现曾老师之前写过一篇,不过他这篇是在后面作图的时候发现画图报错后才转换ID,这种就会比较麻烦,所以我这里就正好在构建surat对象之初把基因名字转换好。
如果你不知道basic.sce.pbmc.Rdata 这个文件如何得到的,麻烦自己去跑一下 可视化单细胞亚群的标记基因的5个方法,自己 save(pbmc,file = 'basic.sce.pbmc.Rdata') ,我们后面的教程都是依赖于这个 文件哦!
既然这个捕获中性粒细胞是BD单细胞转录组的卖点,那么是不是只要是选择了这个技术就一定能能捕获到中性粒细胞呢?让我们随机看看其它比较新的文章,比如同样的2023的《Single-cell and spatial transcriptome analysis reveals the cellular heterogeneity of liver metastatic colorectal cancer》,数据 是 196,473 CD45+ immune cells from 27 samples of six CRC patients, 链接在;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE225857
如果你也想加入交流群,自己去:你要的rmarkdown文献图表复现全套代码来了(单细胞)找到我们的拉群小助手哈。
接下来就可以读取它们啦,有意思的是每个样品都需要独立的读取3个文件,合并成为一个单细胞Seurat对象,操作技巧满满!
首先下载数据 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE225689
然后绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。说起来很简单,但是实际上每次做到单细胞数据集的细分亚群就非常的头疼,尤其是myeloid的髓系,(单核,树突,巨噬,粒细胞)有时候根本就分不清楚,而且分完之后仍然是可以继续细分。
描述的很清楚,每个单细胞亚群细分后取子集的时候,仍然是需要UMI 的raw counts值,从代码的角度就是:
这个umap里面,叠加了FeaturePlot看一个基因表达信息。文献出处是:《IL-11 is a crucial determinant of cardiovascular fibrosis》,作者其实就是想展现IL-11这个基因呢,在其中一个fibroblasts细胞亚群里面是表达量比较高!
这里我们把cluster size设置为≥10,count设置为≥3,以这个条件进行过滤,筛选过一些低表达的。😏
其中有一个环节是需要比较seurat分群以及singleR的分群,这样就可以合理的命名啦。在jimmy老师的督促下,我使用老师的代码处理了GSE135927数据集,直接套用了jimmy老师的标准代码,希望对所有的初学者有帮助!
前面我们展现了 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,然后呢,第二次分群的上皮细胞可以细分恶性与否,免疫细胞呢,细分可以成为: B细胞,T细胞,巨噬细胞,树突细胞等等。实际上每个免疫细胞亚群仍然可以继续精细的划分,以文章为例:
该篇文章重点研究了轮状病毒感染绒毛尖端的肠细胞会导致损伤。并且对感染的小鼠肠上皮进行的单细胞RNA测序显示了广泛的应答,包括干细胞扩增和不成熟的肠上皮细胞群。干细胞亚群更频繁地进入细胞周期,导致产生更多的肠上皮细胞来补偿绒毛尖端受损的肠上皮细胞。在丛状细胞中病毒转录物的存在和丛状细胞转录激活的证据表明丛状细胞在损伤后的上皮反应中提供了重要的信号。
这个GSE206528的单细胞转录组数据集,很容易构建成为Seurat对象。仍然是走常规的单细胞转录组降维聚类分群代码,可以看 链接: https://pan.baidu.com/s/1bIBG9RciAzDhkTKKA7hEfQ?pwd=y4eh ,基本上大家只需要读入表达量矩阵文件到r里面就可以使用Seurat包做全部的流程。批量读取它的9个文件的代码如下所示:
我们得比较一下,作者的ellranger的aggr整合多个10X单细胞转录组得到的表达矩阵,跟我们使用seurat3的merge功能整合8个10X单细胞转录组样本后的表达矩阵是否有差异。
可以看到,在CD4和CD8的T细胞的各自矩阵内部降维聚类分群,这6个细分亚群都并不是泾渭分明的界限。听完分享才知道,原来作者这个时候的细分亚群其实并不关心它们内部是不是有不同的独立的单细胞亚群,仅仅是有这6个不同状态或者说发挥不同功能单细胞亚群。而区分它们的手段是非负矩阵分解,并不需要有很清晰的界限,只需要各个亚群的核心功能基因集有差异即可。
领取专属 10元无门槛券
手把手带您无忧上云