前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟小洁老师学GEO的第一天

跟小洁老师学GEO的第一天

原创
作者头像
贝诺酯
发布2023-03-18 23:06:35
4320
发布2023-03-18 23:06:35
举报

图表介绍

热图

输入的数据是数值型矩阵/数据框

颜色的变化表示数值的大小

散点图和箱线图

输入数据是一个连续型向量和一个有重复值的离散型向量

火山图

理解FC

FC是处理组平均值/对照组平均值

logFC:FC取log2

处理组➖对照组

logFC正常值是个位数,超过20百分之百是错的

logFC>0,代表基因表达量上升

logFC<0,代表基因表达量下降

PCA样本聚类图

GEO背景知识和表达芯片分析思路

实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象

有差异的材料➡差异基因➡找功能/找关联➡解释差异,缩小基因范围

数据库介绍

基因表达芯片的原理

探针的表达量代表基因的表达量

探针:一组核苷酸序列

分析思路

表达矩阵

代码语言:javascript
复制
#数据下载
rm(list = ls())
library(GEOquery)
#先去网页确定是否是表达芯片数据,不是的话不能用本流程。
gse_number = "GSE56649"#是一个整体
eSet <- getGEO(gse_number, destdir = '.', getGPL = F)
class(eSet)#下下来是一个列表
length(eSet)#所以只有一个元素
eSet = eSet[[1]]

提取表达矩阵exp

代码语言:javascript
复制
exp <- exprs(eSet)
dim(exp)
exp[1:4,1:4]
exp = log2(exp+1)
boxplot(exp)

检查矩阵是否正常,如果是空的就会报错,空的和有负值的、有异常值的矩阵需要处理原始数据。0~20之间就是一个已经取过log的矩阵

如果表达矩阵为空,大多数是转录组数据,不能用这个流程(后面另讲)。

自行判断是否需要log

异常样本处理办法一:直接删掉

异常样本处理办法二:exp=limma::normalizeBetweenArrays(exp)强行拉直

提取临床信息

代码语言:javascript
复制
pd <- pData(eSet)

让exp列名与pd的行名顺序完全一致

代码语言:javascript
复制
p = identical(rownames(pd),colnames(exp));p
if(!p) exp = exp[,match(rownames(pd),colnames(exp))]
#分组信息来自临床信息,分组信息需要与表达矩阵列名一一对应
#临床信息需要和表达矩阵列一一对应

提取芯片平台编号

代码语言:javascript
复制
gpl_number <- eSet@annotation;gpl_number
save(gse_number,pd,exp,gpl_number,file = "step1output.Rdata")

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 图表介绍
    • 热图
      • 散点图和箱线图
        • 火山图
          • 理解FC
        • PCA样本聚类图
        • GEO背景知识和表达芯片分析思路
          • 实验设计
            • 数据库介绍
              • 基因表达芯片的原理
                • 分析思路
                  • 表达矩阵
                    • 提取表达矩阵exp
                    • 提取临床信息
                    • 让exp列名与pd的行名顺序完全一致
                    • 提取芯片平台编号
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档