首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >有一些错误在图片上面显示不出来

有一些错误在图片上面显示不出来

作者头像
生信技能树
发布2024-11-21 09:53:50
发布2024-11-21 09:53:50
5780
举报
文章被收录于专栏:生信技能树生信技能树

看到了一个数据挖掘文章,标题是:《Computational analysis for identification of early diagnostic biomarkers and prognostic biomarkers of liver cancer based on GEO and TCGA databases and studies on pathways and biological functions affecting the survival time of liver cancer》,它里面的错误很多,我们来一点一滴掰扯一下。前面我们提到了第一个错误是:肝癌的简称是:LIHC - Liver Hepatocellular Carcinoma 被弄错了,详见:tcga数据库没有这个癌症啊

这个数据挖掘文章很容易理解,就是两个数据集各自的独立的差异分析:

  • GSE25097 datasets were firstly obtained and compared with TCGA LICA datasets and an analysis of the overlapping differentially expressed genes (DEGs) was conducted.

然后两次差异分析各自的上下调基因整体作为一个差异分析基因列表去取交集:

  • 790 DEGs and 2162 DEGs were obtained respectively from the GSE25097 and TCGA
  • 102 Common DEGs were identified by overlapping the two DEGs.

起初我看到了这个韦恩图,仅仅是觉得本应该啊,虽然是GSE25097是表达量芯片,而TCGA里面的是转录组测序,两个技术得到了不同的表达量矩阵,但是实验设计是类似的,都是对比癌症样品和癌旁,理论上差异分析的交集本应该是这么可怜:

我就问了问人工智能大模型:790 DEGs and 2162 DEGs 的交集是102个基因,该如何做统计学检验看显著性呢

要确定两个差异表达基因(DEGs)列表之间的交集是否具有统计学显著性,你可以使用几种不同的方法。以下是一些常用的统计检验方法:

  1. 超几何检验(Hypergeometric test)
    • 这是一种用于测试特定基因集是否在两个列表的交集中过度表示的检验。它计算在给定的基因背景集中,随机选择的基因数量与实际观察到的交集数量之间的概率。
  2. Fisher精确检验(Fisher's Exact Test)
    • 如果你的数据集较小,或者你想要检验两个分类变量之间的关联性,Fisher精确检验是一种合适的方法。它可以帮助你确定两个独立事件同时发生的概率是否显著。
  3. 卡方检验(Chi-squared test)
    • 如果你有更大的数据集,可以使用卡方检验来检验两个分类变量之间的独立性。这可以帮助你确定两个列表的交集是否比随机期望的更大。
  4. Bonferroni校正
    • 如果你进行了多次比较,可能需要使用Bonferroni校正来调整你的显著性阈值,以控制多重比较的假阳性率。
  5. 模拟方法(Permutation test)
    • 通过随机重新分配基因标签并计算在随机数据集中获得的交集大小,可以评估观察到的交集是否显著。然后,将实际交集与模拟的分布进行比较。
  6. **Gene Set Enrichment Analysis (GSEA)**:
    • GSEA是一种更高级的方法,它不仅检验单个基因的显著性,还考虑了基因集的整体表达模式。它可以帮助你确定特定生物学过程或通路是否在两个列表的交集中显著富集。

在进行这些检验之前,你需要确定背景基因集的大小,以及两个列表中DEGs的数量。然后,你可以使用R语言中的相关包(如edgeRDESeq2GOstatsclusterProfiler等)来执行这些检验。记得在进行统计检验时,要考虑到你的数据的特点和检验的假设条件。

最后,记得对结果进行适当的解释,并在可能的情况下,通过实验验证来支持你的发现。

如果人类是2万个基因,那么tcga数据库的肝癌的癌症和癌旁差异基因是2162个,相当于是十分之一的概率。这个时候,我们假设前面的 GSE25097数据集里面的790 DEGs ,跟转录组的 DEGs 的交集是102个基因,相当于 八分之一。这个时候,十分之一和八分之一就很难说有什么统计学显著性了。

如果我们拿tcga数据库的肝癌的癌症和癌旁差异基因是2162个,去跟kegg数据库的不同的基因列表去富集分析,比较靠前的通路就非常显著了。我们的1300个基因在8848里面大概是 七分之一,但是每个通路(比如cell cycle是 51/158 )都是接近三分之一,就很显著的富集。

通路(比如cell cycle是 51/158 )都是接近三分之一

当然了,这个交集很少,我只能说是怀疑作者有问题,首先呢,我们去文献附件看了看里面的具体的两个数据集的差异结果:

代码语言:javascript
复制
Additional file 1: Supplement Table 1.
The differentially expressed genes of GSE25097

Additional file 2: Supplement Table 2.
TCGA the differentially expressed genes

Additional file 3: Supplement Table 3.
Parameter values of the common differentially expressed genes

这里面是有具体的每个基因的变化情况,我们可以读取后进行简单的可视化:

代码语言:javascript
复制
rm(list = ls())  
d1=data.table::fread('gse_deg_from_paper.txt',data.table = F)
head(d1)
rownames(d1)=d1$Gene
d2=data.table::fread('tcga_deg_from_paper.txt',data.table = F)
rownames(d2)=d2$gene
ids=intersect(rownames(d1),rownames(d2))
length(ids) # [1] 102
df= data.frame(
  d1 = d1[ids,'logFC'],
  d2 = d2[ids,'logFC']
)
plot(df)

如果是仅仅是使用作者的差异分析结果,那么交集当然是102个基因,但实际上作者有一个差异分析是反的 :

作者有一个差异分析是反的

因为作者后面并不会关心具体的基因在两个数据集的变化情况,而是仅仅是统一称作是差异基因,所以躲过一劫:

  • Further screening identified 22 Hub Genes from 102 Common DEGs.
  • ROC and survival curves were used to analyze these 22 Hub Genes and it was found that there were 16 genes with a value of AUC > 90%. A

是不是很戏剧化呢 :

如果大家看不懂上面的操作可以问问人工智能大模型:

刷朋友圈看到了一个《Cytoscape 3.10.0 用户手册》,在线阅读链接是 https://cytoscape.leovan.tech/ ,不喜欢看英文的小伙伴可以读一下:

不喜欢看英文的小伙伴可以读一下

我们之前也有过一个专辑:《cytoscape十大插件》,详见:cytoscape十大插件之九 - 转录调控王者 iRegulon,而且在b站有配套视频操作演示,可以任意快进快退的学习它。

配套视频操作演示

Cytoscape是一个广泛用于生物信息学和系统生物学研究的开源软件工具,用于可视化、分析和解释生物网络数据。以下是Cytoscape的一些常见用法:

  1. 网络可视化: Cytoscape主要用于可视化生物网络,例如蛋白质相互作用网络、代谢网络、基因调控网络等。用户可以通过导入网络数据文件(如SIF、XGMML等格式)来构建和展示网络图。网络中的节点代表生物分子(如基因、蛋白质等),边代表它们之间的关系(如相互作用、调控等)。用户可以自定义节点和边的样式、颜色、标签等,以便更好地展示网络结构和功能。
  2. 网络分析: Cytoscape提供了许多网络分析工具,用于探索网络的拓扑结构、关键节点、社区结构等。用户可以计算节点的度中心性、介数中心性、紧密中心性等指标,以评估节点在网络中的重要性。此外,Cytoscape还支持网络布局算法,以便在图上更好地分布节点,从而更清晰地展示网络拓扑。
  3. 数据整合: 用户可以将其他生物信息学数据集与网络数据集整合,以便在网络上显示附加信息。例如,可以将基因表达数据、蛋白质功能注释等与网络节点关联起来,从而在网络图上展示多维度的信息。
  4. 模块和通路分析: Cytoscape允许用户通过插件扩展功能,以进行更高级的分析,如寻找网络中的功能模块、通路分析等。这些插件可以帮助用户识别网络中的相关节点子集,从而更好地理解生物学过程。
  5. 网络互动和分享: Cytoscape允许用户对网络图进行交互操作,如放大、缩小、拖动节点等。用户还可以保存网络图为图像或特定格式的文件,以便与同事共享研究结果。
  6. 插件支持: Cytoscape具有丰富的插件生态系统,用户可以根据需要选择和安装插件,以扩展Cytoscape的功能。这些插件可以提供各种高级分析工具、网络布局算法、数据导入导出功能等。

总之,Cytoscape是一个强大的工具,用于探索、可视化和分析生物网络数据,有助于生物信息学研究人员更好地理解生物体系的复杂性和相互作用。

这段描述涉及到生物信息学中的蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络分析,这是一种用于探索基因和蛋白质之间相互作用关系的分析方法。以下是对这段描述的详细介绍:

  1. 差异表达基因(DEGs)
    • 首先,研究者识别出102个差异表达基因(DEGs),这些基因在不同条件下(如正常与疾病状态)的表达水平存在显著差异。
  2. STRING数据库
    • 这些DEGs被用作输入,通过STRING数据库构建了一个PPI网络。STRING是一个在线数据库和分析工具,用于预测和可视化蛋白质之间的相互作用。
  3. PPI网络图
    • 利用STRING生成的PPI网络图展示了基因/蛋白质之间的相互作用。这些相互作用可能包括直接的物理联系、共表达关系或其他类型的生物学关联。
  4. Cytoscape软件
    • PPI网络图被导出到Cytoscape软件中进行进一步的分析和可视化。Cytoscape是一个开源的生物信息学软件平台,用于可视化和分析复杂的网络。
  5. CytoHubba插件
    • 在Cytoscape中,使用CytoHubba插件来计算网络中的节点(基因/蛋白质)的度值(Degree Value)和其他参数值。度值是指一个节点与其他节点连接的数量,通常用来衡量节点在网络中的重要性。
  6. Hub Genes
    • 根据CytoHubba插件的计算结果,研究者定义度值大于或等于5的基因为Hub Genes,即网络中的关键节点。在这项分析中,共识别出22个Hub Genes。
  7. Hub Genes的关系
    • 图4B展示了这22个Hub Genes之间的关系,可能包括它们之间的直接相互作用或通过其他基因/蛋白质的间接联系。
  8. 补充表格
    • 补充表格3提供了这些Hub Genes的详细度值和其他参数信息,这些信息有助于进一步理解这些基因在生物学过程中的作用。

通过这种分析,研究者可以识别出在特定生物学过程中可能发挥关键作用的基因,为后续的实验验证和药物靶点发现提供线索。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档