生信数据分析其实是学不完的,尤其是单细胞领域,五花八门,我以为在2018到2022我写了4个专辑就可以“退休了”:
没想到的说2024我又创作了50+的单细胞笔记,实在是求助我的小伙伴们实在是领域太分散了,而且确实是单细胞数据分析方向总会涌现出来各种看起来是奇奇怪怪的分析,但其实就是统计学底层小细节罢了。
比如这次粉丝提问的又是张泽民课题组新鲜出炉的(2024年8月)的单细胞数据挖掘文章:《Integrative single-cell analysis of human colorectal cancer reveals patient stratification with distinct immune evasion mechanisms》,如下所示有一个基因交集的可视化。正常情况下,交集应该是韦恩图,但是作者把一个简简单单交集玩出花来了。其中交集的左边是 mapped genes of CRC risk loci 是来源于前人的研究,下载一个基因列表即可。然后交集的另外一部分就是单细胞降维聚类分群之后的每个亚群在癌症和癌旁的差异基因列表。如下所示:

每个亚群在癌症和癌旁的差异基因列表
比如,在正文里面,研究者们单独可视化了这个排名靠前的COL4A2基因 ,如下所示很明显的在肿瘤里面是高表达的,相对于癌旁组织来说 :

单独可视化了这个排名靠前的COL4A2基因
这个COL4A2基因 首先应该是 mapped genes of CRC risk loci 是来源于前人的研究,然后它在多个单细胞亚群里面都表现出来了很明显的在肿瘤里面是高表达,相对于癌旁组织来说!
如果仅仅是交集,应该是韦恩图,统计一下各个单细胞亚群交集基因数量即可,发现成纤维细胞(Fibroblasts)和内皮细胞(Endothelial Cells, ECs) 的交集排名靠前。不应该是出现上面的散点图,需要理解一些统计学概念:
其实不同单细胞亚群是否有这些 mapped genes of CRC risk loci 的差异情况,应该是下面的热图展示 :

同样的,也可以看到这个COL4A2基因 在内皮细胞和成纤维,都是统计学上调基因啦,但是这个并不足矣让它从全部的mapped genes of CRC risk loci里面脱颖而出,因为出现在多个单细胞亚群都表现出差异的基因有很多,需要一个统计学指标:
A larger deviation, as determined by a larger lambda statistic, indicates a stronger transcriptional alteration in tumors for a certain cell type
如果看文章里面的方法学描述,其实就会发现,描述的确实是过于简单:

描述的确实是过于简单
值得注意的是,如果做这样的单细胞亚群在不同分组的大量细胞之间的差异分析,是需要抹去细胞数量这个变量的。这段描述涉及到的是统计学中的一些概念,用于研究特定细胞类型在肿瘤和癌旁组织中的基因表达差异。下面是对这些概念的解释:
总的来说,这段描述是关于如何使用统计学方法来分析特定细胞类型在肿瘤和癌旁组织中的基因表达差异。通过差异表达分析,研究者可以识别出表达水平有显著差异的基因,并通过分位数-分位数图和Lambda统计量来评估这些差异的显著性。这些分析有助于理解肿瘤发生过程中不同细胞类型的转录调控变化。
其实上面的单细胞转录组表达量矩阵的降维聚类分群,然后是细胞亚群的生物学命名,然后是差异分析,都是有整理好的流程,基本上可以无脑运行的,看起来统计学其实并不重要。
然后呢, 如果是gwas记录的crc的1000个基因去跟各个亚群取交集,似乎是也不需要统计学。但是交集后仍然是有一两百个基因,如果继续从这里面定位到最关键的呢,其实粗浅的可以直接看变化倍数或者表达百分比差异即可。并不一定要看文章那样的搞一个统计学概念。
统计学是一块的难啃的骨头,所以我们整理了技能树往年笔记,以及一些优秀同行的分享分享给大家,每一篇都值得细细品读!
如果不学统计学,那么你就不可能看懂下面这图,生物信息学领域耳熟能详的生存分析,主成分分析,差异分析你都无法理解。
