单细胞转录组之降维聚类分群-回答上周评论区的问题

生信菜鸟团

发布于 2023-01-05 20:55:59

2.5K0

上周推文评论区中有人提到 ”小编复现的降维聚类图形状和原文长的不一样，没有关系么？您定义的celltype和作者定义的celltype重叠度怎么样呢？“ 这周推文来简要说一下我的看法。

小编复现的图：

文章中的图：

在我刚开始做单细胞转录组测序的相关分析时，我也有这个疑惑，为什么复现文章中的降维分群与原文形状不一致呢？

基于我针对多篇文章多个数据集的复现发现，有种种原因都会造成这个现象:

换台电脑，一样的代码就会使得降维聚类的位置形状都会发生改变。
同一数据的UMAP 和 tSNE 图的位置形状肯定也不一样。
复现文献只能尽量的按照文献中提到的参数来修改我们的标准代码，然后按照标准代码把流程跑一下。尽量做到和文章一致。
文章中用于细胞命名的marker gene与我们所用的也并不一致。我们一般倾向于将细胞命名为常见的几群细胞：髓系，T, B, Fibo, Endo, Epi。当然如果文章中出现一些特定疾病的相关细胞也会找相关marker gene而进行命名。
在整合数据时选用harmony还是CCA。文献中使用的CCA, 而我使用的是harmony。之前有推文比较过CCA和harmony的区别。CCA 和 Harmony在整合pbmc3k和pbmc5k的效果比较

降维首先来说做单细胞转录组测序流程中所用的 FindVariableFeatures 和 RunPCA 函数就是两种不同策略的降维。
- FindVariableFeatures：sce <- FindVariableFeatures(sce, selection.method = "vst", nfeatures = 2000) 一般是根据一些统计指标，比如 sd,mad,vst 等来判断输入的单细胞表达矩阵里面的 2 万多个基因里面，选出最重要的 2000 个基因，其余的 1.8 万个基因下游分析就不考虑了。
- RunPCA 函数：sce <- RunPCA(sce, features = VariableFeatures(object = sce)) 在跑完之后2000 个基因会转变为 2000 个维度，但是我们通常看前 15/20 个维度就可以了，所以这个也是一个效率非常高的降维方式。
聚类聚类分群往往是根据细胞各个基因表达模式的相似度或者距离来进行聚类的，相似度高或者距离近的就归为一个cluster。而对于单细胞转录组测序的细胞聚类算法有很多种，像KNN、SNN、Louvain算法等等。曾老师也提到，需要注意的是二维平面空间，三维球体空间的细胞距离很方便计算，但是如果是50个维度的空间，计算几万个细胞之间的距离就很可怕了，如果是2000个维度，甚至是2万个维度，基本上个人计算机就可以放弃了。这就是为什么我们前面通常是需要降维的。