Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >WGCNA得到模块之后如何筛选模块里面的hub基因

WGCNA得到模块之后如何筛选模块里面的hub基因

作者头像
生信技能树
发布于 2020-02-20 07:11:36
发布于 2020-02-20 07:11:36
15.5K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

我在生信技能树多次写教程分享WGCNA的实战细节,见:

通常是介绍到,把输入的top5000 MAD的基因根据WGCNA算法划分为多个模块,然后不同模块都可以去和临床形状看相关性。

首先看样本性状和模块的关系

如下图,如下要看懂下面的图需要理解3个概念:

  • gene significance (GS) was defined as mediated p-value of each gene (GS = lgP) in the linear regression between gene expression and the clinical traits.
  • module eigengenes (MEs) were defined as the first principal component of each gene module and the expression of MEs was considered as a representative of all genes in a given module.
  • module significance (MS) were defined as the average GS of all the genes involved in the module

首先,每个模块都有一个MEs,模块的MEs能够代表模块本身去跟性状进行计算相关性(基于样本),这个相关性值就体现在了下面的热图里面:

step5-Module-trait-relationships

可以很清楚的看到,疾病进展的3个阶段,都是有非常显著的模块与之相关。举个例子,假如我们现在关心的是phase1,那么就可以深入查看,我们全部模块里面的所有基因,跟我们的phase1这个性状的相关性系数。

可以看到,基本上就是等价于前面的模块基因集与性状特征的相关性热图。只不过是把其中一个性状,也就是phase1单独拿出来仔细看而已。

比如看black这个模块里面的基因, 这些基因在phase1这个性状里面的的GS值都比较高,意味着这个black模块跟phase1这个性状的MEs会比较高,对应前面的模块基因集与性状特征的相关性热图。

然后看基因和模块的关系

既然这个性状phase1有3个关联性比较好的模块,例子里面是 black, blue, turquoise, 那么就需要下游分析这3个模块里面的基因集。但是每个模块基因数量毕竟是太多,如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> as.data.frame(table(mergedColors))
   mergedColors Freq
1         black  140
2          blue  572
3         brown  401
4         green  237
5   greenyellow   74
6          grey  203
7       magenta   85
8          pink  103
9        purple   76
10          red  190
11          tan   62
12    turquoise 2591
13       yellow  266

所以需要探索每个模块里面的基因,到底跟性状有什么样的关系,如何从模块里面继续挑选感兴趣的基因。

绘制如下 Module membership vs. gene significance 的图,然后挑选右上角的点所代表的基因即可。

这个策略被很多文章采用,比如发表在:Front. Oncol., 11 September 2018 | https://doi.org/10.3389/fonc.2018.00374的文章:

Based the cut-off criteria (|MM| > 0.8 and |GS| > 0.2), 42 genes with high connectivity in the clinical significant module were identified as hub genes.

可以看到,这个文章里面对GS的阈值设置的很低哦,具体一点是:

  • The connectivity of genes was measured by absolute value of the Pearson's correlation.
  • Genes with high within-module connectivity were considered as hub genes of the modules (cor.geneModuleMembership > 0.8).
  • Hub genes inside a given module tended to have a strong correlation with certain clinical trait, which was measured by absolute value of the Pearson's correlation (cor.geneTraitSignificance > 0.2).

再辅助生存分析,就可以进一步缩小基因范围啦

Among them, CCNB2, FBXO5, KIF4A, MCM10, and TPX2 were negatively associated with the overall survival and relapse free survival

为什么这篇文章是这样操作的呢,其实是WGCNA官网推荐的,因为Module membership (MM) is a measure of intra-modular connectivity.

那么connectivity到底是什么呢?

既然大家都是Module membership (MM) is a measure of intra-modular connectivity.所以筛选NM和GS值就好了,为什么还会有一个专门的connectivity呢?

就需要再去理解 connectivity 定义了,搜索到一个介绍:https://www.researchgate.net/post/How_should_I_interpret_the_connectivity_measures_kTotal_kWithin_kOut_kDiff_in_WGCNA

  • 1) kTotal - connectivity of the each gene based on its r-values to all other genes in the whole network
  • 2) kWithin - connectivity of the each gene within a single module based on its r-values to all other genes within the same module
  • 3) and 4) kOut and kDiff mathematical derivatives from 1) and 2)

WGCNA官网说明很简单:The function intramodularConnectivity computes the whole network connectivity kTotal, the within module connectivity kWithin, kOut=kTotal-kWithin, and kDiff=kIn-kOut=2*kIN-kTotal

因为这个概念很少有人知道,所以大家使用WGCNA把基因划分好模块之后,通常并不是计算这个指标,但是WGCNA官网推荐使用这个指标来挑选模块内部最重要的基因!

Finding genes with high gene significance and high intramodular connectivity in interesting modules

亲爱的读者,你觉得呢?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
WGCNA关键模块和hub基因筛选
WGCNA的理论背景知识 WGCNA的详细分析流程 关键模块和hub基因筛选,在流程中并不可知 模块划分好后如何找到key module
Y大宽
2018/10/11
6.3K0
RNA-seq入门实战(十一):WGCNA加权基因共表达网络分析——关联基因模块与表型
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
15.3K3
RNA-seq入门实战(十一):WGCNA加权基因共表达网络分析——关联基因模块与表型
WGCNA如何从module中挖掘关键基因
识别到与表型数据相关的modules之后,还可以在该modules中进一步筛选基因,为了方便筛选,对于每个基因定义了以下三个统计量
生信修炼手册
2020/05/08
2.8K0
🤩 WGCNA | 值得你深入学习的生信分析方法!~(网状分析-第三步-模块与特征分析)
1写在前面 之前我们完成了WGCNA输入数据的清洗,网络构建和模块识别。😘 而且还介绍了如何对大型数据分级处理,有效地减少了内存的负担。😷 ---- 接着就是最重要的环节了,将不同module与表型或者临床特征相联系,进一步鉴定出有意义的module,并进行module内部的分析,筛选重要基因。🤒 不得不说,东西还是挺多的,而且非常重要,我们一起来试一下吧。🥰 2用到的包 rm(list = ls()) library(WGCNA) library(tidyverse) 3示例数据 load("Femal
生信漫卷
2023/02/24
5570
🤩 WGCNA | 值得你深入学习的生信分析方法!~(网状分析-第三步-模块与特征分析)
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
WGCNA (weighted gene co-expression network analysis)权重基因共表达网络分析(流程模块见下图),可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联,常用于筛选关键表型的hub基因 ,是RNAseq分析中的一块很重要的拼图。而之所以叫组学数据黏合剂是因为表型可以是患者的临床信息(生存信息,分期信息,基线信息等),可以是重测序信息肿瘤(驱动基因的变异与否,signature ,CNV信息等),可以是转录组结果(免疫浸润,risk score ,GSVA ,分子分型结果),可以是单细胞数据(celltype ,AUCell 打分)等等 。注:这些在公众号之前的文章中大多都有涉及,文末有部分链接。
生信补给站
2023/08/25
1.1K1
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
一文看懂WGCNA 分析(2019更新版)
不过,我这点战绩根本就算不上什么,其实这个WGCNA包已经是十多年前发表的了,仍然是广受好评及引用量一直在增加,破万也是指日可待。
生信技能树
2019/09/30
30.9K2
一文看懂WGCNA 分析(2019更新版)
WGCNA加权基因共表达网络一步法分析学习
WGCNA是一种用于分析基因表达数据的系统生物学方法。主要用于识别在基因表达数据中呈现共表达模式的基因模块,并将这些模块与样本特征(如临床特征、表型数据)相关联,进而识别关键驱动基因或生物标志物。
凑齐六个字吧
2024/08/31
2790
WGCNA加权基因共表达网络一步法分析学习
GEO_加权共表达网络WGCNA
WGCNA(Weighted Gene Co-Expression Network Analysis,即加权基因共表达网络分析)是一种用于分析基因表达数据的系统生物学方法。WGCNA的主要目的是识别基因表达数据中的共表达模块,并研究这些模块与外部样本特征(例如,疾病状态、临床特征等)之间的关系。
sheldor没耳朵
2024/07/25
4720
GEO_加权共表达网络WGCNA
七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
WGCNA分析完全是照搬jimmy老师三年前的教程,要提醒大家的是要用别人的教程一定要看清楚别人数据格式,行名,列名,然后做成绝对一致的格式,这样会很大程度的减少报错!
生信技能树
2019/09/03
1.4K0
七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
🤩 WGCNA | 值得你深入学习的生信分析方法!~(网状分析-第二步-网络构建与模块识别)
1写在前面 上期我们完成了WGCNA输入数据的清洗,然后进行了样本的聚类与异常值的剔除,总体来说是非常简单的。😘 这期我们继续完成WGCNA分析的第二步,网络构建和模块识别。🤒 2用到的包 rm(list = ls()) library(WGCNA) library(tidyverse) 3示例数据 load("FemaleLiver-01-dataInput.RData") 4软阈值 4.1 topology analysis 首先我们要进行soft thresholding power β的计算。🤒
生信漫卷
2023/02/24
6210
🤩 WGCNA | 值得你深入学习的生信分析方法!~(网状分析-第二步-网络构建与模块识别)
WGCNA + ssGSEA的组合分析
生物信息数据分析教程视频——16-单样本基因集富集分析(ssGSEA)用于肿瘤相关免疫细胞浸润水平评估
DoubleHelix
2023/09/06
7490
WGCNA + ssGSEA的组合分析
WGCNA分析,简单全面的最新教程
本文应该是第二全的WGCNA分析教程,参考了最新的文档。第一全的还在路上,会出现于生信宝典和宏基因组公众号组织的二代三代转录组测序分析实战班上,欢迎点击链接了解更多。 WGCNA基本概念 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。 相比于只关注差异表达的基因,WGCNA利用
生信宝典
2018/06/26
5.6K0
WGCNA:带你飞的科研神器
这个软件从2008年发表至今(截止到2019-05-20)已经被引用3899次。可见这个包多么受欢迎。
作图丫
2022/03/29
1.3K0
WGCNA:带你飞的科研神器
lncRNA实战项目-第六步-WGCNA相关性分析
WGCNA将lncRNA分成18个模块(3635个lncRNA),空间模块中lncRNA表达呈现明显的组织区域特异性,如:CB (M1, 794个lncRNAs),DG/CA1 (M2, 443个lncRNAs), CA1 (M4, 369个lncRNAs),neocortex (M7, 123个lncRNAs)和OC (M10,57个lncRNAs)。时间模块中lncRNA表达与年龄有关,而与组织区域不明显;性别模块中lncRNA表达与性别和年龄都相关。每个模块就必须做pathway/go等数据库的注释分
生信技能树
2018/03/05
5.2K0
lncRNA实战项目-第六步-WGCNA相关性分析
通过WGCNA作者的测试数据来学习
在这样的测试数据里面很容易跟着作者的文档,一步步掌握WGCNA,文档步骤目录如下:
生信技能树
2019/09/30
1.3K0
通过WGCNA作者的测试数据来学习
加权基因共表达网络分析(WGCNA)实例
这里运行R语言包GDCRNATools的帮助文档中的例子获得胆管癌的rna表达矩阵
用户7010445
2020/03/23
2.6K0
加权基因共表达网络分析(WGCNA)实例
WGCNA实战:识别免疫相关lncRNA
前面的推文给大家介绍了3种识别免疫相关lncRNA的方法:免疫相关lncRNA的识别
医学和生信笔记
2023/08/30
7260
WGCNA实战:识别免疫相关lncRNA
单细胞实战之单细胞hdWGCNA分析——入门到进阶(高级篇3)
在高级篇2中回顾了用于拟时序分析的CytoTRACE2和monocle3两个工具。
凑齐六个字吧
2025/04/27
3760
单细胞实战之单细胞hdWGCNA分析——入门到进阶(高级篇3)
WGCNA仅仅是划分基因模块,其它都是附加分析
曾老师给我分享了一篇数据挖掘的文章,里面的WGCNA非常奇怪,我之前没见过这样的模块与表型的相关性热图
生信技能树
2023/09/04
1.4K0
WGCNA仅仅是划分基因模块,其它都是附加分析
WGCNA如何挖掘潜在的共表达基因
共表达基因指的是表达量具有协同变化趋势的基因集合,通常认为这些基因参与相同的生物学过程,比如参与同一个代谢通路,正是由于功能上的协同作用,导致表达量呈现出高度相关性。
生信修炼手册
2020/05/08
2.2K0
WGCNA如何挖掘潜在的共表达基因
推荐阅读
相关推荐
WGCNA关键模块和hub基因筛选
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验