前言
随着转录组研究越来越多,实验样本数日趋增多,对数据挖掘要求也越来越高,传统的两两差异分析不再能满足我们的分析需求。科研君们在前往高分文章的道路上出现了绊脚石:生信分析零基础,脚本代码似天书,数据挖掘玩不转,文章发表周期长!
话说,挑战与机遇并存,在此背景下,美吉I-Sanger转录组云平台高级分析——加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis, WGCNA)应运而生,一种非常适合进行复杂转录组数据分析的方法。官方建议至少5组样本,每组三个重复,即样本数在15个以上,以便获得更为科学准确的分析结果。
小编每天见证我们的研发同事加班加点,不懈努力,立志将最好的WGCNA云分析呈现给大家!此刻,小编已经迫不及待地想向大家传授通往高分文章的秘籍:云平台WGCNA分析四步法。
第一步:数据预处理
计算基因表达量之间的相关系数,并做幂函数处理,以便相关系数值的分布最终符合无尺度分布,即使得最终只有少量几个基因和其他很多基因存在相互作用关系,而大部分基因和其他基因间的相互作用关系则很少。通常表达量偏低或变异系数过小的基因,在数据预处理时,认为是噪音需要剔除。另外,云平台上可根据样本聚类分析了解是否存在离群样本,进行样本剔除。
第二步:模块识别
计算基因间的相关系数之后,将基因按照表达模式进行分类,将模式相似的基因归为一个模块(module)。这样做的好处是简化信息量!将成千上万个基因进行模块化。每个模块的基因可能会参与相似的通路,或有相似的功能。
WGCNA云分析的神通广大之处还在于有“参数设置”栏,可以根据需求重新调整参数划分模块,结果分分钟呈现在眼前。
下图就是将基因分为不同模块的结果图,每种颜色代表一个模块。
模块分类树
第三步:核心模块筛选
将模块划分好之后,如何找到最为关键模块呢?通过与表型数据进行关联分析,获得关键模块。通过计算模块与表型的相关性系数,可以直观的看出每个模块与表型的关联性。通过基因与表型相关性热图,也可以直观地查看基因与表型的关联性。
WGCNA云分析的优越之处在于允许客户自由上传表型数据,只需轻轻点击,模块/基因与表型的关联性一目了然,帮您快速锁定核心模块。
模块与表型相关性热图
基因与表型相关性热图
第四步:基因间调控关系可视化及核心基因筛选
通过前面三个步骤,找到与研究密切相关的模块,接下来就要深入关键模块内部一探究竟了。将模块内基因之间的调控关系可视化,得到一个调控网络,可别小看这个分析哦,可以帮您实现的内容可真不少:一是可以形象展示这些基因之间的调控关系;二是可以根据关系预测未知基因的功能;三是可以基于基因之间的连通性来筛选核心基因,也就是处于网络中心节点位置的基因,建议对其优先进行深入分析和挖掘,至于周边那些打酱油的成员,往后放一放是明智的。
并且,WGCNA云分析并不只是简简单单地呈现一张静态网络图而已,通过使用图表工具对网络图的进行调整,动态网络图也能美美哒呈现给您。
结果图通过前面的四步法,相信大家对我们WGCNA云分析的操作步骤和优势特点都已经清晰明了。不过,如果各个步骤都要设置调整参数和运行,想想也是挺耗时费力的呢。贴心的云平台想您所想,解您所忧,专门设置了一个“一键化”流程页面,在此页面上,只需要单另上传表型数据,其他参数可选择默认参数,让分析一步到位。
只是看图还不够过瘾吧,为了帮助大家更好地理解WGCNA分析,学会自主操作,我们将在5月9日推出专题在线讲座“WGCNA云分析 刷爆你的高分文章”,关注我们,加美吉-转录与调控QQ群(QQ ID:537437247或者扫下方二维码),保证你会有意想不到的收获哦。
我们的美吉I-sanger转录组云平台其他高级分析也会不断上线哦,敬请大家期待!
有你想看的精彩
领取专属 10元无门槛券
私享最新 技术干货