前面我们已经给大家介绍过TCGA数据库中样本barcode的详细组成:TCGA样本barcode详细介绍,现在我们来看看如何将基因表达矩阵与样本临床信息进行合并,方便后续做 比如生存分析,基因在不同样本分期...、性别、年龄分组等中的差异表达情况。...工作流类型 ) ## 下载数据 GDCdownload(query=query, files.per.chunk= 50, directory = "./") 下来后的数据为一个样本一个tsv文件...() %>% # tibble不支持row name,我竟然才发现!...() %>% # tibble不支持row name,我竟然才发现!
图1 现在,我要将以60至69开头的行放置到另一个名为“OutputFile.csv”的文件中。...图1中只是给出了少量的示例数据,我的数据有几千行,如何快速对这些数据进行查找并将满足条件的行复制到新文件中?...由于文件夹中事先没有这个文件,因此Excel会在文件夹中创建这个文件。 3.EOF(1)用来检测是否到达了文件号#1的文件末尾。...4.Line Input语句从文件号#1的文件中逐行读取其内容并将其赋值给变量ReadLine。 5.Split函数将字符串使用指定的空格分隔符拆分成下标以0为起始值的一维数组。...6.Print语句将ReadLine变量中的字符串写入文件号#2的文件。 7.Close语句关闭指定的文件。 代码的图片版如下: ?
","tbl","tibble","data.table" which 当我们需要从含有多个数据对象的文件中读取数据时可以指定这个参数;比如file是一个压缩的文件夹,可以使用该参数来指定需要读取的文件...;如果是一个excel表格(含有多个子表格),可以使用which指定读取的表格;如果是一个Rdata文件也可以指定需要读取的对象 当我们在一个文件夹下有多个文件,可以使用import_list函数来一次性读入...x 数据框或者矩阵 file 保存的文件名 format 保存的文件格式(文件拓展名);file和format至少要指定一个 也可以使用export将多个对象输出到一个文件中(excel和Rdata):...vector export(c("mtcars", "iris"), "multi2.rdata") 而export_list可以将多个对象输出为多个文件: export_list(list(mtcars...5-1-1 readr将文件解析成tibble分成3个步骤: 文件被解析成字符串矩阵 决定每列的数据类型 将每列的字符串按照特定的数据类型进行解析 向量解析 向量解析使用parse_*函数,将字符向量转化为特定类型的向量
在某些细胞类型和组织中可能具有特定的功能。 HSP90B1: 也被称为HSP90β1或grp94,主要存在于内质网中,而不是细胞质。 参与新合成蛋白质的折叠和质量控制,特别是在内质网中。...关于TCGA数据的下载以及整理,我们前面已经给大家介绍过两个帖子了: TCGA样本barcode详细介绍 TCGA数据库| 如何将表达矩阵与样本临床数据进行合并?...= "./") ## 再次加载 load("TCGA-HNSC/TCGA-HNSC.transcriptome.Rdata") ls() names(assays(data)) rowdata % # tibble不支持row name,我竟然才发现!...() %>% # tibble不支持row name,我竟然才发现!
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") cran_packages <- c('tidyr', 'tibble...hgu133plus2.db) ls("package:hgu133plus2.db") ids <- toTable(hgu133plus2SYMBOL) head(ids) 方法2 读取GPL网页的表格文件...acc=GPL570 if(F){ #注:表格读取参数、文件列名不统一,活学活用,有的表格里没有symbol列,也有的GPL平台没有提供注释表格 b = read.delim("GPL570-55999...str_detect(ids2$symbol,"///");table(k2) ids2 = ids2[ k1 & k2,] # ids = ids2 } 方法3 官网下载注释文件并读取 http...") 如何画PCA图 rm(list = ls()) load(file = "step1output.Rdata") load(file = "step2output.Rdata") #输入数据:
require(tibble))install.packages('tibble',update = F,ask = F) library(tidyr) library(dplyr) library(stringr...转换数据:把表格转换成两列数据 -(1) 第一步:转置 -(2) 第二步:把行名作为一列添加到数据中(因为ggplot2容易把行名丢掉,所以倾向于把行名作为一列) -(3) 第三步:新增一列“group...rownames(exp) = paste0("gene",1:3) colnames(exp) = paste0("test",1:6) exp[,1:3] = exp[,1:3]+1 #给exp的1-3列加一...#处理数据 library(tidyr) library(tibble) library(dplyr) dat = t(exp) %>% #转置 as.data.frame() %>% #...如何挑出30个数里最大的五个 -(1)排序 -(2)取最后五个 图片 3.向量/列表的隐式循环-lapply() 对列表/向量中的每个元素实施相同的操作 lapply(1:4,rnorm) #批量画图
1、输入代码:括号内为“作者名/R包名称”devtools::install_github("xjsun1221/tinyarray")2、本地安装:从github官网上R包界面下载到本地,并放到当前工作目录下...,使用如下命令:devtools::install_local("tinyarray-master.zip",upgrade = F,dependencies = T)注意:本地安装时要写全文件名称而并不只是...options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")cran_packages tibble...Matrix File(s)(内存大小通常以M为单位),然后放在工作目录下;或者使用以下代码:library(GEOquery)gse_number = "GSE56649"#换数据集时只需要修改引号内的内容即可...x[match(y,x)]#表示以y为模版给c调顺序6、提取芯片平台编号,并将以上输入数据储存为Rdata文件gpl_number <- eSet@annotation;gpl_numbersave(gse_number
此处以GSVA方法进行示例: library(parallel) library(doParallel) library(foreach) #并行计算所使用的R包 library(tibble)...library(dplyr) #包含对dataframe数据的函数 load("/Users/narcissus/Desktop/bioinfomatics/Data/HealthPool_20824.RData...") #文件目录需要根据实际情况进行更改 # gsva的方法评估 - - - - - - - - -...- > NormalPool<-HealthData0 # 这一步根据具体RData文件中的名字进行更改,笔者的文件中的变量为“HealthData0” source("/Users/narcissus...基因集,使用具体方法得到该基因集的p值列表(总共进行2000次) GSVA_adjust(exprSet) } # 每一次循环都会产生一个列向量(基因集数量*1),通过foreach中的
全文并非是对数据整理的实操整理,主要整理在数据整理/清洗中常用的R包介绍 library(tidyr) library(dplyr) library(stringr) library(tibble) 1...#只删除第一次出现的目标字符 str_remove_all(x," ") #删除全部目标字符 2.玩转data.frame--dplyr包 2.1 arrange,数据框按照某一列排序,实际参数不能加"...) = x$ID 7.2 一些搞文件的函数 dir() # 列出工作目录下的文件 dir(pattern = ".R$") #列出工作目录下以.R结尾的文件 file.create("douhua.txt...") #用代码创建文件 file.exists("douhua.txt") #某文件在工作目录下是否存在 file.remove("douhua.txt") #用代码删除文件 file.exists("...douhua.txt") #删掉了就不存在啦 ## 可以批量的新建和删除 f = paste0("douhua",1:100,".txt") file.create(f) file.remove(f) 以上内容均引用自生信技能树
提取没有重复的第一次出现的mutate,数据框新增一列mutate(test, new = Sepal.Length * Sepal.Width) new是新产生的列名新加之后,如果没有赋值,那么这个数据框还是没有新加,...取头几个tail 取尾巴的几个还没做思考题:如何跳出一个表达矩阵里方差最大的1000个基因思考题:取出大于1的所有行向量/列表的隐式循环-lapplylapply(list, FUN, …)对列表/向量中的每个元素实施相同的操作...数据框如下library(tidyr)library(tibble)library(dplyr)dat = t(exp) %>% # 赋值dat,然后进行转置as.data.frame() %>% #...(3)放弃match的解法load("matchtest.Rdata")rownames(x) = x$file_namex = x[colnames(y),]colnames(y) = x$ID2.一些搞文件的函数..."xxxx.Rdata/Rdata")../ 读取上一级文件夹
orgdb_example/GCF_000002945.1_ASM294v2_protein.faa --output orgdb_example/out -m diamond --cpu 8 将注释结果下载到本地...,手动删除前三行带井号的行,第四行开头的井号去掉,文件末尾带井号的行去掉。...term = gene_terms) gene2go <- rbind(gene2go, tmp) } head(gene2go) > head(gene2go) # A tibble...接下来可以做GO富集分析了 首先准备一个基因列表,我这里选取gene2go中的前40个基因作为测试 还需要为TERM2GENE=参数准备一个数据框,第一列是term,第二列是基因ID,只需要把gene2go...这个文件里有pathway2name这个对象 load(file = "kegg_info.RData") pathway2gene % left_join(ko2pathway
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。...acc=GPL570 先下载GPL对应的txt到本地文件 if(F){ #注:表格读取参数、文件列名不统一,活学活用,有的表格里没有symbol列,也有的GPL平台没有提供注释表格 b = read.delim...comment.char = "#") colnames(b) ids2 = b[,c("ID","Gene Symbol")] #名字从colnames(b)输出结果中复制...1000 sd 热图---- cg = names(tail(sort(apply(exp,1,sd)),1000)) #嵌套型代码写法 #管道符代码写法 library(tidyr) library(tibble...以上内容均引用自生信技能树
require(tibble))install.packages('tibble',update = F,ask = F) library(tidyr) library(dplyr) library(stringr...) library(tibble) rm(list = ls()) if(!...) = x$ID # 2.一些搞文件的函数---- dir() # 列出工作目录下的文件 ## [1] "0_pre_install.R" "1_玩转字符串.R"..." "test2.Rdata" dir(pattern = ".R$") #列出工作目录下以.R结尾的文件 ## [1] "0_pre_install.R" "1_...## [1] TRUE file.exists("douhua.txt") #某文件在工作目录下是否存在 ## [1] TRUE file.remove("douhua.txt") #用代码删除文件
. ├── DESCRIPTION ├── NAMESPACE ├── R └── ncov.Rproj 接下来的操作中我们只需要关注这两个文件(夹):DESCRIPTION 和 R。...") Hello.R 的内容(#' 开头的内容等下会被翻译成帮助文档,不能省略): #' Hello World #' @description Print messages #' @param message...首先我们创建一个 R6.R 文件,因为我想使用 R6 类去封装这些操作: usethis::edit_file('R/R6.R') 然后在这个文件里面写上如下内容: #' Get 2019nCov data...编写 ncov 包的 DESCRIPTION 文件 使用下面的命令把该包依赖的 R 包写入 DESCRIPTION 文件中的 Imports 字段下: for(pkg in c("jsonlite",...License 字段是声明该包的许可证的,这里我使用的是 MIT 许可 + 文件许可证,这个文件在的内容是: YEAR: 2020 COPYRIGHT HOLDER: Zhenxing Cheng 这是符合
比如有这么一个excel文件:data.xlsx,它里面的内容是这样的: 现在我们需要把它读入R里面。我推荐你使用readxl包读取Excel文件。...,可以使用foreign包中的read.spss()函数读取,或者使用haven包中的read_sav()。...haven这个包是专门设计用来读取spss/SAS/STATA格式的文件的~ 如果是rdata/Rdata/RData文件,这个是R自带的格式,直接load()即可,但是要注意一定要写对文件路径!!...或者也可以直接双击rdata/Rdata/RData文件!.../Rdata/RData文件,直接用save()函数,简单方便,下次直接load即可,还可以同时保存多个对象!!
========== library(TCGAbiolinks) library(SummarizedExperiment) library(dplyr) library(DT) library(tibble...library(future.apply) plan(multiprocess) library(TCGAbiolinks) library(dplyr) library(DT) library(tibble...= 0.05, ] res <- res[order(res$p.value), ] single_gene <- rownames(res) #single_gene即为得到的单因素cox分析中P...) %in% single_gene)] rownames(sig_genes) <- survival_dat$Barcode save(sig_genes,file = 'sig_genes.Rdata...') lncRNA <- read.table('diffmRNAExp.txt',header = T,sep = '\t') #diffmRNAExp.txt文件是上一节生成的差异基因文件 univariate_data
1.4.1 火山图的横纵坐标及其含义1.4.1.1 横坐标:logFCFoldchange(FC):处理组平均值/对照组平均值logFoldchange(logFC):Foldchange取log2表达矩阵中的...options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")cran_packages tibble...注释来源:Bioconductor的注释包GPL的表格文件解析官网下载对应产品的注释表格自主注释3.3.2.2 探针注释的代码library(tinyarray)find_anno(gpl_number...) #打出找注释的代码ids 中的...,GEO数据挖掘这部分内容实在是太多啦!
#如何将结果存下来?...("gene",1:3) colnames(exp) = paste0("test",1:6) exp[,1:3] = exp[,1:3]+1 exp library(tidyr) library(tibble...) = x$ID # 2.一些搞文件的函数---- dir() # 列出工作目录下的文件 dir(pattern = ".R$") #列出工作目录下以.R结尾的文件 file.create("douhua.txt...") #用代码创建文件 file.exists("douhua.txt") #某文件在工作目录下是否存在 file.remove("douhua.txt") #用代码删除文件 file.exists("....Rdata') library(dplyr) x=arrange(dat,logFC);head(x) # 2.将test1.Rdata中存放的两个数据框连接在一起,按共同的列取交集 x=merge(
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") cran_packages <- c('tidyr', 'tibble...', getGPL = F) ##getGEO函数可以下载到工作目录下和读取GSE文件, class(eSet) length(eSet) eSet = eSet[[1]] 图片 在GEO数据库网页中可以查看数据的基本信息...array芯片数据才可以用此代码分析 图片 GEO文件下载并读取到R中为只有一个元素的list 在列表中取子集后得到"ExpressionSet"结构数据,为"Biobase"包中的数据形式 #(1)提取表达矩阵...文件 感谢曾老师!!!...str_detect(ids2$symbol,"///");table(k2) ## ids2 = ids2[ k1 & k2,] # ids = ids2 } ##GPL网站下载的表格文件中可能存在多余的行
根据元素位置赋值,则x后面无需加赋值符号,直接加中括号即可图片(2)根据值x[x==10] #等于10的元素x[x中的元素3.数据框将示例数据放在你的工作目录下...如何将TXT文件导入工作目录: Rstudio中运行x=read.table(file.choose()),注:括号里不用加任何东西,然后在跳出的文件中选择所需文件示例数据是如何获得的?...sep为文件中的字段分隔符,!!!要和seq区分开;header为逻辑关系 T或者F(所代入excel数据,第一行是否用作列名称。...csv含义:在 R 语言中,我们可以从存储在 R 语言环境外的文件中读取数据。 我们还可以将数据写入将被操作系统存储和访问的文件。...保存的格式是RData。
领取专属 10元无门槛券
手把手带您无忧上云