因为单细胞数据在呈指数增长,遇到大数据集只是早晚的问题。曾经我们困惑一个物种的基因组那么大,如果给很多物种都测基因组的话,拿什么来存储这些数据?随着单细胞技术的成熟,测序成本的下降,眼见单细胞数据通量将会呈现超指数增长。在bulk时代所几十例转录组会觉得已经做了很多了,而单细胞时代少则几千大则百万的数据量。我们不能怪时代太快,只能怪自己没有做好心理准备。
如果让我推荐一本比较全面的单细胞数据分析教材,我想会是《Computational-method-for-single-cell-data-analysis》。在2019年刚出版没多久的时候,就有趁着一次生物信息会议之后,打印了这本书(仅作个人学习之用)。
今天给大家介绍的是俄亥俄州立马勤教授在nature reviews molecular cell biology发表的文章《Deep learning shapes single-cell data analysis》。作者在此篇综述文章中主要提到了深度学习模型对于单细胞测序领域具有巨大的潜力。目前已经在单细胞领域中应用了大量深度学习模型来进行数据分析,但仍有许多挑战和可能的新发展有待探索。在这篇评论中,作者考虑了采用深度学习方法来分析单细胞数据的进展、局限性、最佳实践和前景。
2022年2月23日,俄亥俄州立大学医学院生物医学信息学系的 Qin Ma 和密苏里大学电子工程和计算机科学系的 Dong Xu 在 Nat Rev Mol Cell Biol 杂志 (2020年影响因子94.444) 发表文章,介绍了深度学习方法在单细胞数据分析中应用的进展、局限性、最佳实践和前景。
单细胞数据分析现在已经有上千个软件工具可供使用了,这为用户带来便利的同时也造成了选择困难。就像时间一样,一个表,没问题,但如果有两个表,时间还不一样,该信谁的呢?
轨迹推断(Trajectory Inference,TI),是分析从千上万单细胞的组学数据中推断细胞发育轨迹的重要方法,也被称为伪时序分析 (pseudotime analysis),该方法根据细胞表达模式的相似性对细胞进行排序。这为应用单细胞转录组学、蛋白质组学和表观组学数据研究细胞内的动态过程,如细胞周期、细胞分化和细胞激活等,提供了新的契机。
生信分析对于非专业人士来说比较困难,而单细胞数据分析通常更为复杂。如何降低数据分析的门槛?正好看到一篇文章介绍了这一主题。
最近看到了一个比较清晰明了的综述,适合癌症领域研究者初次接触单细胞技术前阅读,标题是:《Single-cell transcriptomics in cancer: computational challenges and opportunities》,该综述并没有过多描述单细胞数据分析的方方面面,也不是罗列降维聚类分群等步骤的各个不同软件算法:
可以很清晰的看到,多个病人的单细胞可以分成恶性的上皮细胞和非恶性的肿瘤微环境,微环境的那些细胞可以聚集成为很多类,而且每个类别的细胞都是来源于不同病人的。
单细胞转录组测序技术自2013年被《Nature Methods》杂志评为年度技术以来,已快速发展十余年。
过去的一周,我的心绪总在跌宕着。每一天都有新的事情发生,使我不能静静地在键盘上回复你的留言,想说的话题好像很多,多到一定程度,又不知从何说起。
主要是因为我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo,而且也有海量的配套视频教程在b站,视频号等渠道,基本上大家能看到的中文笔记都是我们分享的。。。。
这3个阶段就是天然的分组啦, 每个分组是3个病人取样后做单细胞转录组,其中有两个病人的样品会同时送去做空间单细胞,所以可以看到如下所示的实验设计流程图:
回首年前开创的单细胞天地公众号,再看看单细胞转录组知识星球的精华资源,一年时间就这样过去了,感慨万千!
或多或少,隐隐约约地我们都有自己出本书的念头。写一本书除了内容,还有一部分是这本书的结构:先写什么,后写什么。
对单细胞技术感兴趣?点击浅蓝色字 — 中科院的算法开发博士带你真正玩转这项平均每个月都有多篇高IF文章的技术
我们知道在研究问题时,分组是很重要的,有分组才有故事可讲。比如,两块田一块施肥一块不施肥,可以做比较嘛。在单细胞数据分析中用到较多的数据分组技术是聚类(clustering),这里面有很多的喜怒哀乐,因为聚类是无监督的,而且可以聚成不同的层次,在第一次聚类后,又可以对亚群聚类,真是子子孙孙无穷匮也。这也是单细胞数据分析的魅力所在:不同层次的聚类就像剥洋葱,剥着剥着,说不定就泪流满脸了呢?
其实数据分析就是我们单细胞天地发布的全网第一个单细胞转录组课程所精炼了常规单细胞转录组数据分析主线,就是5大R包, scater,monocle,Seurat,scran,M3Drop,然后10个步骤:
单细胞多组学技术为阐明单个细胞的基因组、表观基因组和转录组异质性的特征提供了见解。然而,它们给数据处理带来了新的计算挑战。2023年10月,《Briefings in Bioinformatics》发表了一种用于条形码索引的单细胞-单分子多组学数据分析的通用流程——ScSmOP,用于多模态数据分析。
在这第三封家书里,想和你聊聊我对单细胞数据边界的体会。作家苏心说:人与人之间的关系,就像两棵共同生长的树木, 彼此靠得太近了,互相滋扰遮挡,肯定长不好,甚至会枯萎。只有保持适度距离的守望,才能枝繁叶茂,华枝春满。
因为我自己能力限制,单细胞多组学,单细胞表观,单细胞免疫组库,空间单细胞这些比较新颖的技术在2023年8月份之前我是不可能去整理它们数据分析流程,所以如果不是普通的单细胞转录组数据,请绕行哈, 放过我吧。
科学研究的过程可重复性可以说是一件不言而喻的事情:如果你提出一观点或发现一个现象,在别人那里完全重复不出来,谁知道是不是臆想呢?但是有时候重复人家的研究结论又会显得不可理喻:分析的环境,软件的版本,试剂的保质期,甚至是历史条件都会成为不可重复的原因。然而,我们仍然做着这样的努力,至少我们看到数据科学家在做着这样的努力。
其实如果你看过我表观组学系列,比如《ChIP-seq数据分析》 和 《ATAC-seq数据分析》 就会知道这些技术都可以被单细胞化, 如果你具备比较好的背景知识,理论上是可以自己根据文档把它们对应的单细胞水平的数据分析摸索成功。那就作为学徒作业吧,摸索scChIPseq数据分析流程!
用一个比喻来说,它就像一把钥匙,能够开启细胞内部世界的大门,让我们得以窥见细胞如何通过蛋白质的相互作用来执行生命活动。
如果收集病人队列比较麻烦,细胞系实验比较大众,也可以从数据分析角度探索一个基因的功能,有:
2019年11月14日,北京大学白凡研究员团队与广州医科大学附属广州市妇女儿童医疗中心儿科研究所张玉霞研究员,国家临床重点专科儿科消化团队(杨敏、耿岚岚及龚四堂主任医师)合作在《Cell》以长文形式发表了题为“Mucosal profiling of pediatric-onset colitis and IBD reveals common pathogenic and therapeutic pathways”的研究论文,报道了这一儿童疾病研究领域的重大进展。
单细胞和空间组学技术的迅速崛起生成了大量数据,为提供具有用户友好界面的更全面的数据分析平台,近日《Nature Communications》发表了一款交互式且易于使用的应用程序——ezSingleCell,无需事先具备编程知识即可分析各种单细胞和空间组学数据类型。
这个Molecular Cancer期刊大家应该是不陌生了,是BMC(隶属于Springer Nature)旗下 ,2002年在英国创刊;2021年的期刊影响因子为41.444,在肿瘤学排名7/245,生化与分子生物学排名3/296。
不过那个时候的R包的很多函数代码现在都过时了,现在没有学习的价值了哈,但是思路是可取的, 比如我把单细胞转录组数据分析流程分成如下10个步骤:
其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细胞对他的生物学故事来说是锦上添花,可有可无,所以我也不想去追究 他们了。
科学技术的进步促进了我们世界奥秘更为深入的理解。在生命科学研究领域,过去20年中对现代生物学和医学研究产生巨大影响的技术莫过于二代测序技术的逐渐成熟、推广和相关下游技术的开发。二代测序技术打开了从基因组水平去开展疾病诊断、基因鉴定和功能研究的大门。
我们知道单细胞数据的激增和它的高维特征催生了针对单细胞数据的数据格式:Seurat对象、singlecellexperiment对象以及anndata对象。空间数据的出现为表达量数据带来了新的视角,一般它包含图像数据,空间坐标数据以及表达量数据。虽然以上三种数据格式可以轻松地把空间信息包装起来,但是为了凸显空间位置的重要性,人们开发了与单细胞的singlecellexperiment类似的SpatialCellExperiment用于空间数据管理与分析。当然,另一个R包:SpatialExperiment 也在不断地完善中。
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
实际上,绝大部分情况下,仅仅是因为我们对数据的了解不够。这样的疑惑很容易发生在没有太多数据处理经验的初学者身上,他们过渡依赖于标准流程和“师兄师姐”传递下来的代码,或者说太依赖各种参数和阈值,不敢大胆的反抗软件分析的结果。。。。
单细胞 RNA 测序(Single cell RNA sequencing,scRNA-seq)是一种在单细胞水平上利用 RNA 测序对特细胞群体进行基因表达谱定量的高通量实验技术。待测组织经过单细胞分离、RNA 提取、逆转录、文库构建和测序,便可利用数据分析获得多个细胞的基因表达谱。
这个文章在做三分组的9个病人的单细胞转录组的同时,也有对应的空间单细胞,但是从数据分析的结果来看,无非就是把空间单细胞转录组数据当做是了染色的切片,看了看已知的单细胞亚群的染色的片子的分布而已。。。
绝大部分还没有接触单细胞的小伙伴很容易被无良自媒体带节奏,误以为单细胞就等价于CNS级别文章,或者再差也是子刊级别。实际上新技术的红利窗口期非常短暂,从样品量数据量的要求一直在水涨船高!比如我们看看某公司2020第四季度单细胞文章合辑,如下所示:
链接: https://www.sciencedirect.com/science/article/abs/pii/S1074761319302845
相对于传统的bulk RNA-seq,scRNA-seq的特色就是为了找出更细微的差异,而单细胞数据分析的最终目的就是基于一系列差异分析,鉴定出和生物学表型相关的差异。因此,分析过单细胞数据的小伙伴想一下不难得出,所有高级分析都是基于找出的差异基因扩展的,它们的第一步都是算出组间的差异基因,然后做拟时序分析,细胞通讯分析等。
老实说,过去的三年虽然说我一直在朋友圈刷到有空间单细胞的cns文章,但我实际上是瞧不起这个技术的。首先它仅仅是给大红大紫的单细胞转录组续命而已,其次它根本就不是真正的单细胞水平,所以绝大部分数据分析哦度非常粗糙,仅仅是蹭热点。。。。
写在笔记开始之前:好像大家不怎么知道我们生信技能树团队有一个生物信息学入门课,详见;生物信息学马拉松授课(买一得五)
本文介绍由美国卡内基梅隆大学的Ziv Bar-Joseph教授团队和加拿大麦吉尔大学健康中心的Jun Ding助理教授团队联合发表在 Nature Communications 的研究成果。细胞分类为高通量单细胞数据的主要挑战,在许多情况下,这种分配需要重复使用外部和补充数据源。为了提高跨大型联盟、平台和模态统一分配细胞类型的能力,作者开发了一种软件工具Cellar,可为分配和数据集比较过程中涉及的所有不同步骤提供交互式支持。作者讨论了由Cellar实现的不同方法,以及如何将这些方法用于不同的数据类型,如何组合互补的数据类型以及如何分析和可视化空间数据。作者通过使用Cellar注释几个来自多组学单细胞测序和空间蛋白质组学研究的HuBMAP数据集来展示Cellar的优势。
从单细胞转录组数据分析的角度来说,大部分图表均可复现,但是生物学背景这一块就很头疼了,太多的专有名词。
万事开头难,考虑到很多小伙伴在做单细胞公共数据分析的时候往往是在第一个步骤读取作者上传的表达量矩阵去构建seurat对象就各种屏蔽,非常有必要把18种单细胞数据格式文件都给大家梳理一下 。 首先是,读
领取专属 10元无门槛券
手把手带您无忧上云