前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据挖掘:从表达谱芯片原始数据(CEL)到探针注释

数据挖掘:从表达谱芯片原始数据(CEL)到探针注释

原创
作者头像
生信探索
发布2023-02-26 11:15:17
发布2023-02-26 11:15:17
1.9K1
举报
文章被收录于专栏:生信探索生信探索

CEL文件:探针的信号值和定位信息,是Affymetrix公司的芯片原始数据。

CEL files contain information on the probe set's intensity values, and a probe set represents a gene. Information about probes gets extracted from the image data by Affymetrix, an image analysis software.

代码语言:shell
复制
library(affy)
library(limma)
library(stringr)
library(AnnoProbe)
library(magrittr)

0. 下载原始 数据

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE66229

代码语言:shell
复制
mkdir data
cd data
tar -xf GSE66229.TAR
rm GSE66229.TAR

1. 读取原始数据

代码语言:text
复制
rawdata <- affy::ReadAffy(celfile.path = "data")

2. rma标准化

代码语言:text
复制
rawdata %<>% affy::rma()
exprs <- Biobase::exprs(rawdata)
range(exprs, na.rm = TRUE) # 1.889917 14.620563 不超过50不需要log2转化
# 列重命名
colnames(exprs) <- stringr::str_split(string=colnames(exprs),pattern = "_", simplify = T)[, 1]

3. limma标准化

代码语言:text
复制
boxplot(exprs, outline = FALSE, notch = FALSE, las = 2)
#分位数校正
exprs %<>% limma::normalizeBetweenArrays()
boxplot(exprs, outline = FALSE, notch = FALSE, las = 2)
range(exprs, na.rm = TRUE) # 2.09520 14.30741
exprs %<>% as_tibble(rownames = "probe_id")

4. 获取探针注释文件

代码语言:text
复制
# 得到探针对应的基因名字
probe2Symbol <- AnnoProbe::idmap("GPL570")
# 看看前几行
head(probe2Symbol,3)
#         probe_id symbol
# 193731   1053_at   RFC2
# 193732    117_at  HSPA6
# 193733    121_at   PAX8

5.ID转换

代码语言:text
复制
transid <- function(probe2Symbol, exprs, method = "median") {
    probe2Symbol$probe_id %<>% as.character()
    exprs$probe_id %<>% as.character()
    exprs %>%
        dplyr::inner_join(probe2Symbol, by = "probe_id") %>%
        dplyr::select(-probe_id) %>% 
        dplyr::select(symbol, everything()) %>%
        dplyr::mutate(ref = apply(across(where(is.numeric)), 1, method)) %>%
        dplyr::arrange(desc(ref)) %>%
        dplyr::select(-ref) %>%
        dplyr::distinct(symbol, .keep_all = TRUE)
}

expression <- transid(probe2Symbol, exprs, method = "median")

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0. 下载原始 数据
  • 1. 读取原始数据
  • 2. rma标准化
  • 3. limma标准化
  • 4. 获取探针注释文件
  • 5.ID转换
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档