前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >WGCNA将共表达基因与表型数据相关联

WGCNA将共表达基因与表型数据相关联

作者头像
生信修炼手册
发布于 2020-05-08 08:51:02
发布于 2020-05-08 08:51:02
2.7K00
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

欢迎关注”生信修炼手册”!

单纯的共表达基因集合的结果并不能与我们的实验设计相关联,对于识别到的几十个共表达基因集合,一一进行富集分析去挖掘其功能,看上去如此的盲目,没有目的性,所以我们需要对共表达基因集进一步挖掘,常规的做法就是分析其中与性状相关的共表达基因,然后针对这些基因通过富集分析来研究其功能。

在WGCNA中,通过相关性分析将表型数据和共表达基因关联起来。这种方法要求提供每个样本对应的表型数据的值,利用这个值与module的第一主成分值进行相关性分析,根据相关性分析的结果。识别与表型相关联的modules。

表型数据示例如下

sample

weight_g

length_cm

ab_fat

F2_290

36.9

9.9

2.53

F2_291

48.5

10.7

2.9

F2_292

45.7

10.4

1.04

F2_293

50.3

10.9

0.91

第一列为样本,其他列代表不同的表型,尽量不要有空值,早进行相关性分析时,空值会被剔除,所以太多的空值会影响相关性分析的结果。

在识别modules的过程中,会根据module的第一主成分,即ME值合并modules, 合并之后的modules需要重新计算对应的ME值,然后用ME值与对应的表型数据的值进行相关性分析,代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 重新计算ME值
MEs0 <- moduleEigengenes(datExpr, moduleColors)$eigengenes
MEs <- orderMEs(MEs0)# 计算ME与表型之间的相关系数和p值
moduleTraitCor <- cor(MEs, datTraits, use = "p");
moduleTraitPvalue <- corPvalueStudent(moduleTraitCor, nSamples);# 用热图展示相关性的结果
# 每个单元格标记相关系数和p值
textMatrix <- paste(
 signif(moduleTraitCor, 2),
 "\n(",
signif(moduleTraitPvalue, 1), ")",
sep = "")dim(textMatrix) <- dim(moduleTraitCor)labeledHeatmap(
 Matrix = moduleTraitCor,
 xLabels = names(datTraits),
 yLabels = names(MEs),
 ySymbols = names(MEs),
 colorLabels = FALSE,
 colors = greenWhiteRed(50),
 textMatrix = textMatrix,
 setStdMargins = FALSE,
 cex.text = 0.5,
 zlim = c(-1,1),
 main = paste("Module-trait relationships"))

可视化的结果如下

在该图中,每一行代表一个module, 每一列代表一种表型,每个单元格的颜色由对应的相关系数进行映射,数值从从-1到1,颜色由绿色过渡到白色,然后过渡到红色。这里在运行时,会有一个有趣的小提示,因为红绿色盲的原因,不推荐采用绿色到红色的颜色渐变,建议采用蓝色到红色的渐变,只需要把greenWhiteRed替换为blueWhiteRed即可,效果图如下

上述只是基本用法,适用于样本属于同一组的情况。设想一下,在组间差异非常大的情况下, 不同分组条件下modules与表型数据的相关性结果肯定也会不同,所以对于样本具有不同分组的数据,需要不同分组分开分析,WGCNA当然也支持这样的分析,不同分组的表达量保存在不同文件中,然后构建一个list对象,长度和分组个数相同,每个元素对应一个分组条件下的表达量数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 样本分为male和female两组,分开读取
femData = read.csv("LiverFemale3600.csv")
maleData = read.csv("LiverMale3600.csv")# 分组个数
nSets = 2;
setLabels = c("Female liver", "Male liver")
shortLabels = c("Female", "Male")# 构建总的表达量,长度为nSets的list
multiExpr = vector(mode = "list", length = nSets)# 每个元素对应一个分组下的表达量数据
multiExpr[[1]] = list(data = as.data.frame(t(femData[-c(1:8)])));
names(multiExpr[[1]]$data) = femData$substanceBXH;
rownames(multiExpr[[1]]$data) = names(femData)[-c(1:8)];
multiExpr[[2]] = list(data = as.data.frame(t(maleData[-c(1:8)])));
names(multiExpr[[2]]$data) = maleData$substanceBXH;
rownames(multiExpr[[2]]$data) = names(maleData)[-c(1:8)];

通过上述方式合并不同分组对应的表达量数据,然后一起识别modules, 不考虑分组,所有样本一起识别到的module称为consensus modules, 在后续与表型数据进行相关性分析时,通过循环,对每一组单独进行分析,代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
moduleTraitCor = list()
moduleTraitPvalue = list()
for (set in 1:nSets)
{
 moduleTraitCor[[set]] = cor(
   consMEs[[set]]$data,
   Traits[[set]]$data,
   use = "p")
}

for循环中的代码和一开始提到的基本用法一致,所以对于每个group, 都可以产生上述的相关性结果的热图,除此之外,还可以分析在不同分组中,共表达的趋势是否一致,如果表达趋势不同,一个为正相关,一个为父相关,则用NA表示, 可以得到如下所示的热图

在该图中,只有在两组中共表达趋势相同的modules才会有颜色填充。

所谓的与表型数据关联,其实就是一个相关性分析,最后可以根据相关性的分析结果,筛选与某种表型显著相关的modules。更多细节请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析
作者团队曾进行过一项研究:从北芬兰 1966 年出生队列(NFBC1966)、芬兰年轻人心血管风险研究(YFS)以及 1997 年和 2002 年的 FINRISK 研究的样本中获得了47种炎性因子的GWAS数据。
生信菜鸟团
2023/09/09
2.2K0
文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析
共病遗传的研究方法:关于多发性硬化症和炎症性肠炎遗传共病研究的例子
全文6,358字(不含代码),8 图,阅读 25 分钟。封面图源:pexels.com
黄树嘉
2021/10/18
2.3K0
共病遗传的研究方法:关于多发性硬化症和炎症性肠炎遗传共病研究的例子
【孟德尔随机化】药靶文献复现(一)
A drug target for erectile dysfunction to help improve fertility, sexual activity, and wellbeing: mendelian randomisation study https://pubmed.ncbi.nlm.nih.gov/38086555/
生信菜鸟团
2024/01/04
2.1K0
【孟德尔随机化】药靶文献复现(一)
【流行病学大背景下】:孟德尔随机化的现在与未来
GWAS(Genome-wide association studies) 是 20 世纪最后 25 年由假设驱动的候选基因关联研究(CGAS)演变而来的。随着技术的发展,无偏见的全基因组搜索成为可能。随着技术的发展,无偏见的全基因组成为可能。然而,与候选基因关联研究一样,这些研究最初也是为了产生两类有价值的知识:首先,研究人员希望发现疾病起源的潜在分子机制,特别是确定所有相关基因和基因变异(即疾病因果关系)。
生信菜鸟团
2023/10/06
1.6K0
【流行病学大背景下】:孟德尔随机化的现在与未来
今天我们来聊一聊孟德尔随机化
在传统的实验设计中,由于种种混杂因素的存在,我们仅仅能够分析变量之间的关联性,最典型的比如GWAS, 对于显著的位点,只能够说明这些位点和性状之间存在关联。对于了解事情发生的原因和规律而言,关联性是不够的,我们需要的是因果性。为了更好的探究因果关系,必须在实验设计和方法上加以改进。
生信修炼手册
2020/05/07
1.8K0
【孟德尔随机化和共定位】文献分享:青光眼的致病基因和细胞类型
这篇文章中,作者将GTEx 的eQTLs和sQTLs、视网膜 的eQTLs和Hi-C,以及青光眼相关眼组织的single-nucleus RNA-seq数据与 POAG 和 IOP 的遗传关联结合起来,以确定可能在 POAG 病因学中发挥重要作用的调控机制、基因、通路和细胞类型。
生信菜鸟团
2024/04/11
1.2K0
【孟德尔随机化和共定位】文献分享:青光眼的致病基因和细胞类型
Nature Communications:主要精神和神经退行性疾病的共同机制
几种常见的精神病和神经退行性疾病具有共同的流行病学风险; 然而,它们是否具有共同的病理生理学尚不清楚,是科研工作者的研究重点。作者使用25个全基因组关联研究 (GWAS)结果和LD得分回归,发现精神疾病和神经退行性疾病之间存在八种显著的遗传相关性。作者将GWAS结果与人脑转录组 (n = 888) 和蛋白质组 (n = 722) 进行整合,以鉴定顺式和跨蛋白以及与每种疾病中的多效性或因果(致病)作用一致的蛋白质,为简洁起见称为因果蛋白(致病蛋白),并在每个疾病组中都发现了许多独特且共享的因果蛋白。值得注意的是,神经退行性疾病病因蛋白的30% (42个中的13个) 与精神疾病共享。此外,作者发现精神和神经退行性因果蛋白之间的蛋白质-蛋白质相互作用比偶然预期的多2.6倍。发现的结果共同表明,这些精神和神经退行性疾病具有共同的遗传和分子病理生理学,这对早期治疗和治疗发展具有重要影响。
悦影科技
2023/01/04
7700
Nat. Genet. | 基于遗传学主导的方法定义免疫相关性状的药物靶标
2019年6月28日牛津大学Julian C. Knight教授团队以及欧盟创新药物计划ULTRA-DD协会在Nature Genetics在线发表题为 A genetics-led approach defines the drug target landscape of 30 immune-related traits研究成果, 使以遗传学为导向的GWAS医学转化研究更靠近临床现实。
DrugAI
2021/01/29
5050
Nat. Genet. | 基于遗传学主导的方法定义免疫相关性状的药物靶标
R语言中的共定位分析
基于上面的假设,第四种设想 H4 在统计学上概率越高,越能解释显著信号位点如何影响表型。,H4值的范围在0-1之间,0表示概率为0%,1表示概率为100%。后验概率越高越好。很多文献认为PPA > 0.95的位点是共定位位点,也有一些文献会放松要求到0.75。接下来我们看下在R中如何进行实现这个分析方法。首先是包的安装:
一粒沙
2022/04/18
3.1K0
R语言中的共定位分析
Stroke:利用人类遗传学理解缺血性卒中预后的机制
缺血性中风是一个具有重大社会和经济影响的全球性健康问题,因此迫切需要阐明缺血性中风后脑损伤、修复和恢复的分子机制。尽管已经经历了50年的潜心研究,但仍然没有被广泛接受的减轻缺血性脑损伤的神经保护药物,也没有神经修复药物,也没有指导治疗以促进恢复的个性化方法。本文探讨的是逆向转化的新方法将补充传统的正向转化的方法用以识别与人类中风相关的预后机制。虽然全基因组关联研究已经获得了30多个影响缺血性卒中风险的基因位点,但只有少数全基因组关联研究用于卒中预后。本文讨论了缺血性卒中预后基因研究的重要考虑因素,包括以卒中发病时间为基础,精心设计的表型,和损伤/恢复机制。本文还根据最新的全基因组关联分析讨论了脑损伤和修复的潜在机制。有几个计划正在寻求与中风结果相关的新表型基因组关联。为了加强对缺血性卒中预后遗传结构的理解,作者使用标准化的表型进行更大规模的研究。除了全基因组关联分析等新技术-信息学,多组学,和新分析方法,有望从药物靶点和其他新干预来揭示遗传和分子通路。本文发表在 Stroke杂志。
用户1279583
2022/02/28
6180
Stroke:利用人类遗传学理解缺血性卒中预后的机制
TwoSampleMR:孟德尔随机化一站式分析
包如其名,TwoSampleMR主要是为两样本孟德尔随机化分析而准备的,在应用这个包以前,我们来看看它的核心函数及其功能:
生信菜鸟团
2023/08/23
6.6K0
TwoSampleMR:孟德尔随机化一站式分析
【孟德尔随机化】如果SMR、Coloc、MR结果不一致该怎么办……
如今的孟德尔随机化日新月异,个人绵薄之力实在是无法及时跟踪最新的进展,有时候也会囿于自己的学识无法带给大家完全可靠的知识。
生信菜鸟团
2023/12/20
1.9K2
【孟德尔随机化】如果SMR、Coloc、MR结果不一致该怎么办……
孟德尔随机化理论知识一站式学习
Inferrence the causility between exposures and healthy outcomes using mendelian randomization approaches
用户11414625
2024/12/20
2210
孟德尔随机化理论知识一站式学习
Nature medicine:基于大样本的大脑衰老模式研究
大脑衰老过程受各种生活方式、环境和遗传因素,以及与年龄相关的病理的影响。磁共振成像和人工智能方法在理解衰老过程中发生的神经解剖学变化方面发挥了重要作用。大规模、多样化的人口研究能够识别由不同但重叠的病理和生物因素导致的全面和有代表性的大脑变化模式,揭示受影响大脑区域和临床表型的交叉和异质性。在此,我们利用最先进的深度表示学习方法 Surreal-GAN,并展示方法学进展和大量实验结果,阐明来自 11 项研究的 49,482 名个体的大脑衰老异质性。通过各自的测量 R 指数确定并量化了每个个体的五种主要脑萎缩模式。它们与生物医学、生活方式和遗传因素的关联为观察到的差异的病因提供了见解,表明它们有可能成为遗传和生活方式风险的大脑内表型。此外,基线 R 指数可预测疾病进展和死亡率,捕捉早期变化作为补充预后指标。这些 R 指数建立了一种测量衰老轨迹和相关大脑变化的维度方法。它们有望实现精确诊断,特别是在临床前阶段,促进个性化患者管理和有针对性的基于特定大脑内表型表达和预后的临床试验。
悦影科技
2025/04/17
940
孟德尔随机化之研究背景
久违的孟德尔随机化开始更新了,在今天的内容中,我将向大家介绍孟德尔随机化的基本概念及其背景知识,并举例说明何时可以使用该方法以及该方法为何能有效解释因果关系。本系列讲解内容主要基于Stephen Burgess和Simon G. Thompson共同撰写的孟德尔随机化图书。
生信与临床
2020/08/06
1.4K0
孟德尔随机化之研究背景
Nature综述|整合组学分析护航健康,推动精准医学时代的到来!
Konrad J. Karczewski, and Michael P. Snyder撰写的关于整合多组学在疾病研究中的应用一文《Integrative omics for health and disease》,于2018年2月26日发表在nature reviews genetics (Nature系列综述, 2018 IF: 41.465)。
生信宝典
2019/10/06
5.9K0
热点追踪 | AI在GWAS功能/转化研究中的应用
解码疾病易感性是人类遗传学和精准医学的核心问题。人工智能(AI)技术已经在解读复杂的功能数据集并为GWAS发现提供新的生物学洞见方面展示出了可观的前景。近日,《Cell Genomics》发表perspective文章,介绍了AI方法应用于GWAS功能和转化研究的进展、挑战及建议。
尐尐呅
2023/09/06
7910
热点追踪 |  AI在GWAS功能/转化研究中的应用
MR-base:高效准确的进行孟德尔随机化研究的网站
通过孟德尔随机化研究,可以基于GWAS的结果来推断不同表型之间的因果关系, 比如使用的很广泛的两样本MR分析
生信修炼手册
2020/05/07
6.1K0
GWAS综述(生信文献阅读俱乐部精选)
从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量的分析策略和研究设计使得选择最佳方法具有挑战性。作者回顾了不同精细绘图方法的优缺点,强调了影响性能的主要因素。主题包括全基因组关联研究(GWAS)的解释结果,连锁不平衡的作用,统计精细绘图方法,跨种族研究,基因组注释和数据整合以及其他分析和设计问题。
生信技能树
2018/11/30
5.2K0
GWAS综述(生信文献阅读俱乐部精选)
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
生信菜鸟团
2025/01/16
3000
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
推荐阅读
相关推荐
文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档