看到了一个数据挖掘文章,标题是:《Computational analysis for identification of early diagnostic biomarkers and prognostic biomarkers of liver cancer based on GEO and TCGA databases and studies on pathways and biological functions affecting the survival time of liver cancer》,它里面的错误很多,我们来一点一滴掰扯一下。前面我们提到了第一个错误是:肝癌的简称是:LIHC - Liver Hepatocellular Carcinoma 被弄错了,详见:tcga数据库没有这个癌症啊
这个数据挖掘文章很容易理解,就是两个数据集各自的独立的差异分析:
然后两次差异分析各自的上下调基因整体作为一个差异分析基因列表去取交集:
起初我看到了这个韦恩图,仅仅是觉得本应该啊,虽然是GSE25097是表达量芯片,而TCGA里面的是转录组测序,两个技术得到了不同的表达量矩阵,但是实验设计是类似的,都是对比癌症样品和癌旁,理论上差异分析的交集本应该是这么可怜:

我就问了问人工智能大模型:790 DEGs and 2162 DEGs 的交集是102个基因,该如何做统计学检验看显著性呢
要确定两个差异表达基因(DEGs)列表之间的交集是否具有统计学显著性,你可以使用几种不同的方法。以下是一些常用的统计检验方法:
在进行这些检验之前,你需要确定背景基因集的大小,以及两个列表中DEGs的数量。然后,你可以使用R语言中的相关包(如edgeR、DESeq2、GOstats、clusterProfiler等)来执行这些检验。记得在进行统计检验时,要考虑到你的数据的特点和检验的假设条件。
最后,记得对结果进行适当的解释,并在可能的情况下,通过实验验证来支持你的发现。
如果人类是2万个基因,那么tcga数据库的肝癌的癌症和癌旁差异基因是2162个,相当于是十分之一的概率。这个时候,我们假设前面的 GSE25097数据集里面的790 DEGs ,跟转录组的 DEGs 的交集是102个基因,相当于 八分之一。这个时候,十分之一和八分之一就很难说有什么统计学显著性了。
如果我们拿tcga数据库的肝癌的癌症和癌旁差异基因是2162个,去跟kegg数据库的不同的基因列表去富集分析,比较靠前的通路就非常显著了。我们的1300个基因在8848里面大概是 七分之一,但是每个通路(比如cell cycle是 51/158 )都是接近三分之一,就很显著的富集。

通路(比如cell cycle是 51/158 )都是接近三分之一
当然了,这个交集很少,我只能说是怀疑作者有问题,首先呢,我们去文献附件看了看里面的具体的两个数据集的差异结果:
Additional file 1: Supplement Table 1.
The differentially expressed genes of GSE25097
Additional file 2: Supplement Table 2.
TCGA the differentially expressed genes
Additional file 3: Supplement Table 3.
Parameter values of the common differentially expressed genes
这里面是有具体的每个基因的变化情况,我们可以读取后进行简单的可视化:
rm(list = ls())
d1=data.table::fread('gse_deg_from_paper.txt',data.table = F)
head(d1)
rownames(d1)=d1$Gene
d2=data.table::fread('tcga_deg_from_paper.txt',data.table = F)
rownames(d2)=d2$gene
ids=intersect(rownames(d1),rownames(d2))
length(ids) # [1] 102
df= data.frame(
d1 = d1[ids,'logFC'],
d2 = d2[ids,'logFC']
)
plot(df)
如果是仅仅是使用作者的差异分析结果,那么交集当然是102个基因,但实际上作者有一个差异分析是反的 :

作者有一个差异分析是反的
因为作者后面并不会关心具体的基因在两个数据集的变化情况,而是仅仅是统一称作是差异基因,所以躲过一劫:
是不是很戏剧化呢 :

如果大家看不懂上面的操作可以问问人工智能大模型:
刷朋友圈看到了一个《Cytoscape 3.10.0 用户手册》,在线阅读链接是 https://cytoscape.leovan.tech/ ,不喜欢看英文的小伙伴可以读一下:

不喜欢看英文的小伙伴可以读一下
我们之前也有过一个专辑:《cytoscape十大插件》,详见:cytoscape十大插件之九 - 转录调控王者 iRegulon,而且在b站有配套视频操作演示,可以任意快进快退的学习它。

配套视频操作演示
Cytoscape是一个广泛用于生物信息学和系统生物学研究的开源软件工具,用于可视化、分析和解释生物网络数据。以下是Cytoscape的一些常见用法:
总之,Cytoscape是一个强大的工具,用于探索、可视化和分析生物网络数据,有助于生物信息学研究人员更好地理解生物体系的复杂性和相互作用。
这段描述涉及到生物信息学中的蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络分析,这是一种用于探索基因和蛋白质之间相互作用关系的分析方法。以下是对这段描述的详细介绍:
通过这种分析,研究者可以识别出在特定生物学过程中可能发挥关键作用的基因,为后续的实验验证和药物靶点发现提供线索。