我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 提到了一个新鲜出炉的多组学文章(包括微生物的代谢组,转录组,单细胞转录组),题目是《Hosts Manipulate Lifestyle Switch and Pathogenicity Heterogeneity of Opportunistic Pathogens in the Single-cell Resolution》。其中转录组部分的数据链接在:https://ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE232120
GSM7315552_Control1.txt.gz 20.0 Kb
GSM7315553_Control2.txt.gz 19.9 Kb
GSM7315554_Control3.txt.gz 20.1 Kb
GSM7315555_Control4.txt.gz 20.1 Kb
GSM7315556_Larvae1.txt.gz 19.9 Kb
GSM7315557_Larvae2.txt.gz 16.9 Kb
GSM7315558_Larvae3.txt.gz 19.2 Kb
GSM7315559_Larvae4.txt.gz 20.4 Kb
GSM7315560_Larvae5.txt.gz 20.0 Kb
很容易批量读取它们,详见我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 ,有意思的是文章给出来了的两分组的差异分析非常完美,如下所示:
两分组的差异分析非常完美
首先是PCA分析可以看到两个分组泾渭分明,上下调基因数量也很合理:upregulation of 360 genes and downregulation of 439 genes,而且上下调基因各自去做了KEGG数据库的注释!
但是如果大家根据我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 ,拿到了表达量矩阵进行质量控制,就会出现如下所示的冲突,两分组根本就不是在PCA上面的泾渭分明 :
两分组根本就不是在PCA上面的泾渭分明
从上面的图可以看出来,需要剔除一个离群点,然后还有两个样品可能是标记反过来了!
差异分析结果也会很尴尬,常规的阈值条件下面根本就没有符合要求的统计学显著的上下调基因 :
差异分析结果也会很尴尬
前面的质量控制图可以看到是需要剔除一个离群点,然后还有两个样品可能是标记反过来了,这个是我们可以人为的修改的!
colnames(symbol_matrix)
symbol_matrix=symbol_matrix[,-6]
group_list=group_list[-6]
group_list[4]='case'
group_list[7]='control'
save(symbol_matrix,group_list,file = 'symbol_matrix.Rdata')
如下所示,就基本上跟文章同样的差异分析结果啦:
同样的差异分析结果
当然了,文章还有针对这个上下调基因列表的富集分析,但是这个微生物比较麻烦,首先基因id需要去kegg数据库里面进行对应,才能进行超几何分布检验的!