首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >转录组——下游分析

转录组——下游分析

原创
作者头像
青柠味
发布2025-06-24 17:07:41
发布2025-06-24 17:07:41
2300
举报

一、差异表达分析

1、数据标准化

上游定量得到的原始count表达矩阵:raw count。

(1)数据标准化-why?

为什么要进行标准化?

计数结果的差异的影响因素:落在参考区域上下限的read是否需要被统计,按照什么样的标准进行统计。

标准化的主要目的是去除测序数据的测序深度和基因长度。

• 测序深度:同一条件下,测序深度越深,基因表达的read读数越多。

• 基因长度:同一条件下,不同的基因长度产生不对等的read读数,基因越长,该基因的read读数越高。

(2)各种值的使用场合

①差异表达分析:原始count值,算法输入要求(针对二代测序差异分析算法,

算法内部一般有标化方法)。

②标化后的值:基因表达值在样本与样本之间具有可比性。PCA分析,样本表达总体分布,生存分析,热图绘制,相关性分析(FPKM、RPM、TPM值)。

③帖子:count转TPM/FPKM实战(GSE229904)

(3)数据预处理

在分析之前,一般会对基因表达进行过滤,比如:低表达的基因

以下是常见的几种过滤方式

• 在至少在75%的样本中都表达的基因

• 过滤平均值count<10的基因

• 过滤平均cpm <10 的基因

2、异常样本和重复性检测

在实验前期,我们已经设置好相关分组信息。

那么有没有什么办法来看看是否存在异常样本?

是否组内样本的重复性合格?

是否前期设置的组与组间可以分开?

(1)样本表达总体分布

①箱式图

②小提琴图

③密度曲线图

raincloud云雨图:一图囊括小提琴+箱线图+散点图

(2)样本之间的相关性

PCA主成分分析:每组三个样本的PCA分析到底能不能加圈?(推文)

相关性分析

层次聚类树

3、差异表达分析

差异分析-edgeR

差异结果可视化:热图和火山图,公众号有画图专辑

二、差异基因功能注释

功能注释:查询感兴趣的基因/基因集合参与哪些可能的生命过程,起到了什么作用?

1、利用GO/KEGG注释给这些基因赋以“功能标签”

  1. 差异分析筛选基因:MAOA(按照FC排序取top10)(NCBI-GeneID :4128)
  2. 进入KEGG搜索界面:https://www.genome.jp/kegg/mapper/color.html
  3. 选择Organism-specific为:hsa
  4. 选择Optional use of outside类型为:NCBI-GeneID
  5. 输入MAOA基因(如格式:4128 red,是gene id 以及把该基因标上什么颜色) Q8:KEGG数据库物种对应关系表查询:https://www.kegg.jp/brite/br08601 代码版本查询:如何批量查询单个基因的功能通路?(推文):https://mp.weixin.qq.com/s/vnhX_C0G7L6AoRK-Jkkv2Q kegg pathway 通路高亮标记基因(推文):https://mp.weixin.qq.com/s/GZ4mILvzM6LuaaNa7feAOg

2、 查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)

  1. 从通过差异表达分析获得airway数据集trt和untrt间差异表达基因集合:共640个基因
  2. 进入KEGG搜索界面https://www.genome.jp/kegg/mapper/color.html
  3. 选择Organism-specific为:hsa
  4. 选择Optional use of outside类型为:NCBI-GeneID
  5. 输入差异表达基因列表:DEG_limma_voom_all-2.txt
  6. 点击Exec

三、基因功能富集

这些基因对哪些功能的影响有针对性,不是随机影响的?——功能的富集分析

1、功能富集分析的原因

  • 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。
  • 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over- presentation)。由单个基因的注释分析发展到大基因集合的成组分析。和随机比较,关注的基因集显著注释的功能节点。

2、功能富集分析的统计方法-over-presentation

(1)超几何分布及累积超几何分布

(2)二项分布及累积二项分布

(3)卡方检验或Fisher精确检验

结果美化的专辑 #绘图小技巧2025

3、功能富集分析-结果可视化

4、功能富集GSEA

(1)GSEA预定义基因集合MSigDB

Broad研究所在提出GSEA方法的同时还提供了一个基因集数据库——MSigdb。它从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,并将其保存在MSigDB。

https://www.gsea-msigdb.org/gsea/msigdb/index.jsp

(2) 结果解读

https://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html

5、GSVA分析

基因集变异分析(Gene Set Variation Analysis,GSVA),一种以非监督方式对一个简

单群体评估通路活性变异的GSE方法。

https://mp.weixin.qq.com/s/1T7GS00uJzHwCAcmvDm6qg

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、差异表达分析
    • 1、数据标准化
      • (1)数据标准化-why?
      • (2)各种值的使用场合
      • (3)数据预处理
    • 2、异常样本和重复性检测
      • (1)样本表达总体分布
      • (2)样本之间的相关性
    • 3、差异表达分析
  • 二、差异基因功能注释
    • 1、利用GO/KEGG注释给这些基因赋以“功能标签”
    • 2、 查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)
  • 三、基因功能富集
    • 1、功能富集分析的原因
    • 2、功能富集分析的统计方法-over-presentation
    • 3、功能富集分析-结果可视化
    • 4、功能富集GSEA
      • (1)GSEA预定义基因集合MSigDB
      • (2) 结果解读
    • 5、GSVA分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档