上游定量得到的原始count表达矩阵:raw count。
为什么要进行标准化?
计数结果的差异的影响因素:落在参考区域上下限的read是否需要被统计,按照什么样的标准进行统计。
标准化的主要目的是去除测序数据的测序深度和基因长度。
• 测序深度:同一条件下,测序深度越深,基因表达的read读数越多。
• 基因长度:同一条件下,不同的基因长度产生不对等的read读数,基因越长,该基因的read读数越高。
①差异表达分析:原始count值,算法输入要求(针对二代测序差异分析算法,
算法内部一般有标化方法)。
②标化后的值:基因表达值在样本与样本之间具有可比性。PCA分析,样本表达总体分布,生存分析,热图绘制,相关性分析(FPKM、RPM、TPM值)。
③帖子:count转TPM/FPKM实战(GSE229904)
在分析之前,一般会对基因表达进行过滤,比如:低表达的基因
以下是常见的几种过滤方式
• 在至少在75%的样本中都表达的基因
• 过滤平均值count<10的基因
• 过滤平均cpm <10 的基因
在实验前期,我们已经设置好相关分组信息。
那么有没有什么办法来看看是否存在异常样本?
是否组内样本的重复性合格?
是否前期设置的组与组间可以分开?
①箱式图
②小提琴图
③密度曲线图
raincloud云雨图:一图囊括小提琴+箱线图+散点图
PCA主成分分析:每组三个样本的PCA分析到底能不能加圈?(推文)
相关性分析
层次聚类树
差异分析-edgeR
差异结果可视化:热图和火山图,公众号有画图专辑
功能注释:查询感兴趣的基因/基因集合参与哪些可能的生命过程,起到了什么作用?
这些基因对哪些功能的影响有针对性,不是随机影响的?——功能的富集分析
(1)超几何分布及累积超几何分布
(2)二项分布及累积二项分布
(3)卡方检验或Fisher精确检验
结果美化的专辑 #绘图小技巧2025
Broad研究所在提出GSEA方法的同时还提供了一个基因集数据库——MSigdb。它从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,并将其保存在MSigDB。
https://www.gsea-msigdb.org/gsea/msigdb/index.jsp
https://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html
基因集变异分析(Gene Set Variation Analysis,GSVA),一种以非监督方式对一个简
单群体评估通路活性变异的GSE方法。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。