首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【R语言】因子在临床分组中的应用

前面给大家简单介绍了 ☞【R语言】R中的因子(factor) 今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。 我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。...",header=T,sep="\t",quote="") #去除重复的行 index=!...duplicated(clin$case_submitter_id) #提取非重复的样本的临床信息 clin=clin[index,] 可以得到如下临床信息表 前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的...参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞R生成临床信息统计表

3.3K21

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table,R可以时矢量,列表,data.frame等,keep.rownames决定是否保留行名或者列表名,默认FALSE,如果TRUE,将行名存在"rn"行中,keep.rownames...="id",行名保存在"id"行中。...kDT=copy(DT) #kDT时DT的一个copy **rowid(..., prefix=NULL) **  产生unique的id,prefix参数在id前面加前缀 setattr 设置..., by=x][order(x)] #和上面一样,采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来,各组分别对定义的行中的...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean

5.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    data.table包的语法简洁,并且只需一行代码就可以完成很多事情。进一步地,data.table在某些情况下执行效率更高。...(ID)] 三种数据筛选的方式,dplyr包、base基础包、data.table包。其中,dplyr是select语句,data.table中要注意.()的表达方式。...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的,传递给下一个函数的第一个参数,然后就不用写第一个参数了。在dplyr分组求和的过程中,还是挺有用的。...—————————————————————————————————————————————— 六、额外的参数(来源:R语言data.table速查手册) 1、mult参数 mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素...(x)] 还有 data$x 如果有很多名字很长的指标,data.table中如果按列进行遍历呢? data[,1]是不行的,选中列的方式是用列名。

    9.3K43

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。...可以看到,计算结果中的第一列实际上是“SELLERID.CLIENT”,我们需要把它拆分成两列并调换顺序才行。...data.table包的语法简洁,并且只需一行代码就可以完成很多事情。进一步地,data.table在某些情况下执行效率更高。...data.table包提供了一个非常简洁的通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。...,以及ID分组,然后分组求资产mortagage的平均数。

    20.9K32

    「R」数据操作(三):高效的data.table

    接「R」数据操作(一)和「R」数据操作(二) 使用data.table包操作数据 data.table包提供了一个加强版的data.frame,它运行效率极高,而且能够处理适合内存的大数据集,它使用[]...data.table的基本语法是dt[i, j, by],简单说就是使用i选择行,用by分组,然后计算j。接下来我们看看data.table继承了什么,增强了什么。...N是最常用的符号之一,它表示当前分组中,对象的数目(就不用调用nrow函数啦)。在[]使用它指提取最后一行。...对数据进行分组汇总 by是data.table中另一个重要参数(即方括号内的第3个参数),它可以将数据按照by值进行分组,并对分组计算第2个参数。...下面的例子中,首先使用通用键id将product_info和product_tests连接起来,然后筛选已发布的产品,再按type和class进行分组,最后计算每组的quality和durability

    6.4K20

    RNA-seq入门实战(三):在R里面整理表达量counts矩阵

    counts与TPM矩阵: 读取counts.txt构建counts矩阵;样品的重命名和分组;counts与TPM转换;基因ID转换;初步过滤低表达基因与保存counts数据 从salmon输出文件中获取...一般为了对样品进行分组注释我们还需要在GEO网站下载样品Metadata信息表SraRunTable.txt,接下来就需要在R中对输出结果进行操作,转化为我们想要的基因表达counts矩阵。...基因ID转换 若上游中采用的是UCSC的基因组和gtf注释文件,则表达矩阵行名就是我们常见的gene symbol基因名;若上游采用的是gencode或ensembl基因组和gtf注释文件,那么我们就需要将基因表达矩阵行名的...在转换时经常会出现多个Ensembl_id对应一个gene symbol的情形,此时就出现了重复的gene symbol。此时就需要我们在进行基因ID转换前去除重复的gene symbol。...在这里展示筛选出至少在重复样本数量内的表达量counts大于1的行(基因),可以看到超过一半以上的基因都被筛掉了。

    20.2K56

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...我工作当中,或者是公认的最常用的方法,无非就是下面几种: ① 数据过滤 ② 数据选择 ③ 数据排序 ④ 数据转换 ⑤ 数据分组 ⑥ 数据抽样 大家做数据分析,会发现90%的时间都在与这几个打交道...data.table包 dplyr已经可以满足我们数据分析工作中大部分的需求,后来该包的作者又开发了一个炫酷吊炸天的包“data.table” 如果你的日常处理数据在几万到十几万行,那么用dplyr...,用by进行分组,然后在列上面进行计算。...以上讲的这些只是我工作中data.table用得最多的功能,它的强大之处还远远不止这些!如果你想深入,可以去官网下载文档,你绝对值得拥有!

    2.5K70

    生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

    关于表达矩阵里的负值 (2)提取临床信息 pd 分组信息 (3)让exp列名与pd的行名顺序完全一致 p = identical(rownames(pd),colnames...pd$group = rep(c("group1","group2","group3"),times = c(6,6,8)) #假如需要从多个分组里面取两个分组对应的行 library(stringr...) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件,按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...= 33) # 打开发现前33行是注释,跳过前33行 colnames(b) ids = b[,c("ID" ,"SYMBOL")] # 要改列名,后面的代码适应这两个列名 colnames(ids)...singleDoc# 《一个有点难的探针注释》 包含在ENTREZ_GENE_ID中 library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971

    36421

    Matt Dowle 演讲节选(二)

    上期回顾 上次讲到 Matt 在转移到 R 阵营之后,开始思考下面那个无法在 S-PLUS 上面实现的命令,能否在 R 中实现呢?...在2004年的第一天,Matt 离开了所罗门兄弟,也离开了 S-PLUS。他开始不断尝试,终于用自己的方式重写了[.data.frame这个函数,从而让sum(B)在 R 中也能得以运行。...这里的关键在于,在第一种方法中,每为新的一行赋值,data.table就要重新复制一遍DT,也就是说,第一种方法的运行过程中,DF被复制了1000遍!...(大猫:在最新版本的 R 中,这个问题已经明显缓解,但是这时已经过去了5年多)而在data.table中,一切都是那么自然: > DF[, colToDelete := NULL] 哪怕你的数据集有...在这个2012年(注意dplyr的最早版本在2016年!)的帖子中,一个用户需要处理以下数据集(这里只显示前6行) ? 他想首先按照gene_id分组,然后分别计算特定变量的极值和均值。

    1.1K40

    data.table包使用应该注意的一些细节

    as.matrix作用于data.table时会调用as.matrix.data.table,有一个rownames参数可以指定保留为行名的列 矩阵转换成data.table时可以保留列名   在...as.data.table函数中同样有一个rownames参数,设置为T可以将行名保留下来作为data.table的一列 不建议set和for循环一起使用   虽然set可以在内存上直接改变数值,但在R...中的0.6就不等于0.6, 虽然很费解,但这是因为计算机在存储浮点数时出现的一些问题。...  类似于集合运算,data.table中fintersect, fsetdiff, funion,fsetequal函数能对不同数据框的行求交集,差集,并集等 可以直接对列按分隔符进行分割   应用...分隔,分割成c1,c2两列 支持类似于SQLs的分组运算   带有rollup, cube, groupingsets函数 参考资料 data.table 1.11.2 manual:https://cran.r-project.org

    1.5K10

    35行代码搞定事件研究法(下)

    注意 I,本代码主要使用data.table包完成,关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中,我们会重点介绍data.table这个包。...用data.table包处理多个事件日 本期课堂的核心代码只有下面5行(应用了data.table包的语法): > car <- event[, { > ns 的所有行。 对选中的变量进行操作(第二行代码)。此处,所有的操作都用大括号{}包裹了起来。 对event按照stk.id进行分组(第三行代码)。...加了这一行代码后,第二行代码中所有的操作都会对每个stk.id分组运行一遍(这一步很关键!)。 讲到这,大家一定会发现,上述代码的关键部分就在大括号{...}所括起来的内容。...在我们的例子中,我们只计算T日前后各一日的收益,因而ars一共有三个元素。

    1.2K40

    数据流编程教程:R语言与DataFrame

    此外,separate和union方法提供了数据分组拆分、合并的功能,应用在nominal数据的转化上。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计,通常结合...(x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分 (3)集合操作 intersect(x, y): x 和 y 的交集(按行) union...(x, y): x 和 y 的并集(按行) setdiff(x, y): x 和 y 的补集 (在x中不在y中) 更多详细操作可以参考由SupStats翻译的 数据再加工速查表,比Python的老鼠书直观很多...数据建模 broom 1. broom 在机器学习的本质其实就是各种姿势的回归,而在R中的各种回归分析往往不会返回一个整齐的data frame 结果。

    3.9K120

    R练习50题 - 第一期

    本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享,我们认为它包括了绝大多数实践中会遇到的问题,特别具有代表性。...unique:找出symbol中不重复的值。 在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。...代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组,所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...整个代码的执行顺序是:先选择行(逗号空白行),再分组(keyby语句),最后进行组间统计(num语句)。 我们的答案中,行、列以及分组三条语句各占一行,实际上这仅仅是为了让代码更直观。...如果你愿意,data.table允许你把所有的代码都写在同一行,就像这样: 下期预告 在下一期,我们会继续带来剩余题目的解答~ 大猫的R语言课堂 我是大猫,一个高中读文科但却在代码、数学的路上狂奔不止的

    2.5K40

    表达芯片数据分析2

    #把R包里的注释表格变成数据框}# 方法2 读取GPL网页的表格文件,按列取子集##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...::fread("GPL570-55999.txt",data.table=F, skip=17) colnames(b) #下一行代码里的列名是从colnames(b)...的输出结果里复制的 ids2 = b[,c("ID","Gene Symbol")] colnames(ids2) = c("probe_id","symbol") #和R包里的列名保持一致 #下面三句代码是将没有对应到基因的探针和对应多个基因的探针去掉...,多分组数据的分析后面另讲# 生成Group向量的三种常规方法,三选一,选谁就把第几个逻辑值写成T,另外两个为F。...keep_all = T)#其他去重方式在zz.去重方式.Rdeg = inner_join(deg,ids,by="probe_id")nrow(deg)#3.加change列,标记上下调基因logFC_t

    33620
    领券