
知识点盲区
我们这个代码使用了十几年了,一直没有问题,我随手处理了一个表达量芯片数据集:5 healthy tissue samples, 9 DCIS and 5 invasive ductal carcinomas were analysed.
可以看到, 其中control样品,就是 5 healthy tissue samples,在层次聚类热图里面确实是5个样品,在pca图里面也是5个小点,然后有一个大的点。所以看起来给初学者的感觉是多了一个样品,因为默认样品才是有点作为标记。

在pca图里面也是5个小点
实际上,这个是画主成分分析图需要加载的这两个包的特性,它给每个分组加上一个代表性的点这个点比样品的点大一些,所以很容易区分,它并不是一个样品。
library("FactoMineR")#画主成分分析图需要加载这两个包
library("factoextra")
#~~~主成分分析图p2~~~
dat.pca <- PCA(exp , graph = FALSE)#现在exp最后一列是group_list,需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
this_title <- paste0(pro,'_PCA')
p2 <- fviz_pca_ind(dat.pca,
geom.ind = "point", # show points only (nbut not "text")
col.ind = group_list, # color by groups
palette = "Dark2",
addEllipses = TRUE, # Concentration ellipses
legend.title = "Groups")+
ggtitle(this_title)+
theme_ggstatsplot()+
theme(plot.title = element_text(size=12,hjust = 0.5))
p2
ggsave('qc_pca.pdf',width = 5,height = 5)
但是如果问人工智能大模型这个问题:做bulk RNAseq的时候只用了六个样本 3个实验组 3个对照组 ,但是PCA图上每个分组却有四个点 这是什么原因呢?
在使用bulk RNA-seq数据进行主成分分析(PCA)时,如果每个分组在PCA图上显示了四个点,而不是预期的三个点,可能有几个原因:
为了解决这个问题,需要仔细检查实验设计、样本处理、数据质量和数据处理流程。可能需要重新检查原始数据、实验记录和分析代码,以确定问题的根源,并采取相应的措施进行修正。在必要时,可能需要重新进行实验或测序以获得准确的数据。