前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >公共数据的信息不可全信

公共数据的信息不可全信

作者头像
生信技能树
发布2024-11-21 09:36:02
发布2024-11-21 09:36:02
6000
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 提到了一个新鲜出炉的多组学文章(包括微生物的代谢组,转录组,单细胞转录组),题目是《Hosts Manipulate Lifestyle Switch and Pathogenicity Heterogeneity of Opportunistic Pathogens in the Single-cell Resolution》。其中转录组部分的数据链接在:https://ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE232120

代码语言:javascript
代码运行次数:0
复制
GSM7315552_Control1.txt.gz 20.0 Kb
GSM7315553_Control2.txt.gz 19.9 Kb
GSM7315554_Control3.txt.gz 20.1 Kb
GSM7315555_Control4.txt.gz 20.1 Kb

GSM7315556_Larvae1.txt.gz 19.9 Kb
GSM7315557_Larvae2.txt.gz 16.9 Kb
GSM7315558_Larvae3.txt.gz 19.2 Kb
GSM7315559_Larvae4.txt.gz 20.4 Kb
GSM7315560_Larvae5.txt.gz 20.0 Kb

很容易批量读取它们,详见我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 ,有意思的是文章给出来了的两分组的差异分析非常完美,如下所示:

两分组的差异分析非常完美

首先是PCA分析可以看到两个分组泾渭分明,上下调基因数量也很合理:upregulation of 360 genes and downregulation of 439 genes,而且上下调基因各自去做了KEGG数据库的注释!

但是如果大家根据我在前面的笔记:微生物真难搞啊,单个物种居然有几千个参考基因组 ,拿到了表达量矩阵进行质量控制,就会出现如下所示的冲突,两分组根本就不是在PCA上面的泾渭分明 :

两分组根本就不是在PCA上面的泾渭分明

从上面的图可以看出来,需要剔除一个离群点,然后还有两个样品可能是标记反过来了!

差异分析结果也会很尴尬,常规的阈值条件下面根本就没有符合要求的统计学显著的上下调基因 :

差异分析结果也会很尴尬

人为的修改公共数据集信息

前面的质量控制图可以看到是需要剔除一个离群点,然后还有两个样品可能是标记反过来了,这个是我们可以人为的修改的!

代码语言:javascript
代码运行次数:0
复制
colnames(symbol_matrix)
symbol_matrix=symbol_matrix[,-6]
group_list=group_list[-6] 
group_list[4]='case'
group_list[7]='control'
save(symbol_matrix,group_list,file = 'symbol_matrix.Rdata') 

如下所示,就基本上跟文章同样的差异分析结果啦:

同样的差异分析结果

当然了,文章还有针对这个上下调基因列表的富集分析,但是这个微生物比较麻烦,首先基因id需要去kegg数据库里面进行对应,才能进行超几何分布检验的!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 人为的修改公共数据集信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档