首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言之 dplyr 包

使用 select( ) 选择列 函数 select( ) 用于选择数据框中的列(变量)。 # 下面的命令选择数据框里面的 bwt、age、race 和 smoke 这 4 个变量组成新的数据框。...select(birthwt, bwt, age, race, smoke) 请注意,MASS 包里有一个同名函数 select( ),如果同时加载了 dplyr 包和 MASS 包,R 会默认使用较后加载的包里的函数...为了避免混淆,我们可以使用符号 :: 特别指明使用某一个包里的函数,例如 dplyr::select( )。之后我们将会对函数 select( ) 作进一步介绍。...# 当然如果想要用新变量替换原来的变量,只需把新变量命名为原来的变量名: mutate(birthwt, lwt.kg = lwt*0.4536) 5.使用 summarise( ) 计算统计量 函数...bwt 的平均值。

45020
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    filter() 会自动舍弃行名,如果需要行名只能将其转换成数据框的一列。...2.4 drop_na 效果和na.omit 一样,但是高级之处在于,其可以指定列,对数据框某列存在NA 的行直接删除: > library(tidyr) > drop_na(X,X1) X1 X2...1 A 1 2 B NA 3 C 3 4 D 4 5 E 5 如果不特定指定列,则和na.omit 效果一样。...R 数据整理(六:根据分类新增列的种种方法 1.0) 其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集,正的序号表示保留,负的序号表示排除。...比如,需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然,如果有许多变量要计算不止一个统计量,就需要人为地将每一个变量的每一个统计量单独命名。

    10.9K30

    R语言学习笔记

    注意,使用rev()函数反序的话,参数只能为矩阵的行名称,如果想使用某一列作为反序的参考,需要使用sort()函数,后面介绍。...首先,x与y有两列完全相同,那么着这两列肯定是交集了,那么必须有的,也就是对应下面的1、2两行;接下来因为是以k1列为参考, > x[,'k1'] ## 可以看到,除了完全相同的4、5两行,还有x中的两个...随机缺失:若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR)。...x的平均值,然后用向量x中的每个元素都减去平均值 > x_mean # 如果发现这个时候新的向量差值还是很大,那么就可以再次计算标准差 [1] -2.5 -1.5 -0.5 0.5 1.5 2.5...,然后计算每一类的Sepal.Width的平均值,然后对其按照平均值排序(终于感受到R语言的牛逼之处了!!!)

    2.5K100

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    data.table包提供了一个非常简洁的通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。...DT数据集按照x分组,然后计算v变量的和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...nomatch用来设置未匹配到的数据如何处理,nomatch=0则认为未匹配到的删除。 melt用来设置是否都显示匹配内容。...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称,X还是按照key,如果没设置就会默认第一行为key。...(x)] 还有 data$x 如果有很多名字很长的指标,data.table中如果按列进行遍历呢? data[,1]是不行的,选中列的方式是用列名。

    9.3K43

    biotrainee note 6

    ,NULL是“什么都没有”test ## 得到一个只有6行的数据框# arrange,数据框按照某一列排序library(dplyr)arrange(test, Sepal.Length) #将“Sepal.Length...”列从小到大排序,并扩展到其他列,会将排序的结果返回至数据框。...***arrange(test, desc(Sepal.Length)) #从大到小sort(test$Sepal.Length) #只排这一列,因为取完子集后变成了一个向量# distinct,数据框按照某一列去重复...) #“new”为新增列的列名,其内容为这两列的乘积# select()、filter()筛选列、行# 连续的步骤# 1.多次赋值,产生多个中间的变量x1 = select(iris,-5) #去掉iris...,最终返回一串数值型的向量,并会继承每个元素的名字apply(test, 1, sum) #对test的每一行求平均值向量/列表的隐式循环:lapply两个数据框的连接注:NA为缺失值,有但是不知道转自生信技能树

    6000

    玩转数据处理120题|R语言版本

    R解法 # 默认是6行,可指定行数 head(df,5) 23 数据计算 题目:将salary列数据转换为最大值与最小值的平均值 难度:⭐⭐⭐⭐ 期望输出 ?...R解法 #换手率这一列属性为chr,需要先强转数值型 #如果转换失败会变成NA,判断即可 df[is.na(as.numeric(df$`换手率(%)`)),] 63 异常值处理 题目:打印所有换手率为...R解法 rownames(df) <- NULL # 如果是tibble则索引始终是按顺序 备注 有时我们修改数据会导致索引混乱 65 异常值处理 题目:删除所有换手率为非数字的行 难度:⭐⭐⭐...题目:按行计算df的每一行均值 难度:⭐⭐ R语言解法 rowMeans(df) 97 数据计算 题目:对第二列计算移动平均值 难度:⭐⭐⭐ 备注 每次移动三个位置,不可以使用自定义函数 R语言解法...- '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 R语言解法 # 可以利用概念计算 res <- (df$col1 - df$col2)

    8.9K10

    生信学习小组Day6笔记—Chocolate Ice

    Rstudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件...mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源# 当然可以换成其他地区的镜像最后保存...():汇总结合group_by使用实用性强summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差# 先按照...Species分组,计算每组Sepal.Length的平均值和标准差group_by(test, Species) #test按照Species分组summarise(group_by(test, Species...与NA>的区别:前者为数字型NA,后者为字符型NA全连full_joinfull_join( test1, test2, by = 'x') #不在乎test1与test2是否匹配半连接:返回能够与y

    75530

    pandas读取表格后的常用数据处理操作

    ;若数据不含列名,则设定 header = None。...如果不指定参数,则会尝试使用逗号分隔。 nrows:需要读取的行数(从文件头开始算起) tabledata = pandas.read_excel("....hotel.xlsx", header=None, sep=',', nrows=10) print(tabledata) 2、对读取的数据重新定义列名 相关参数简介: names:用于结果的列名列表,如果数据文件中没有列标题行...tabledata['类型'] = tableline print(tabledata) 6、修改某一列,用平均值代替缺失值 这个的思路和上面一个基本一致,区别在于我们需要线求出平均值。...平均值的求解肯定不需要缺失值参与,于是我们先取出某一列不存在的缺失值的所有数据,再取出这一列数据,通过mean函数直接获取平均值。

    2.4K00

    day6-白雪

    Rstudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件...,首先得知道你要安装什么包,安装包完成后,才可以使用包里面的函数已安装dplyr为例options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn...) #dplyr下载的是一个安装包,解压在输,要不报错示例数据直接使用内置数据集iris的简化版:test dplyr 的五个基础函数mutate...引用自微信公众号生信星球图片count统计某列的unique值计算数据对象(vector、dataframe)的unique独特值: unique函数 从vector向量、dataframe 中 删除重复项...、删除dataframe重复行> count(test,Species) Species n1 setosa 22 versicolor 23 virginica 2dplyr处理关系数据即将

    90200

    两个神奇的R包介绍,外加实用小抄

    3.函数后面跟括号,括号里第一个参数是都数据框名 4.字符串要加双引号,行名和列名不用加,其他单元格(姑且这么叫了)里出现的字符串要加。...这是一种组织表格数据的方式,提供了一种能够跨包使用的统一的数据格式。 有多统一? 每个变量(variable)占一列,每个情况(case,姑且这么翻译)和观测值(observation)占一行。...二、Dplyr能实现的小动作 1.arrange 排序 按某一/两列值的大小,按照升/降对行排序。...3.distinct 去除重复行(其实就是列出某一列所有的不同值) distinct(frame1,geneid) distinct(frame1,geneid,Sampleid)#列出这两个值都重复的行...") 两种办法拼起来~ 一个是R自带的rbind,一个是dplyr里的bind_rows 按行拼接时,列数、列名需要一致 rbind(frame1,frame4)# frame1 %>%bind_rows

    2.5K40

    R语言第二章数据处理(9)数据合并

    包中的join函数进行数据框的合并,它们数据框合并的原理同样是数据框的合并原理是这样的:首先在A数据框某一指定列的每一行内容在B数据框表的指定列进逐行匹配,直到A中所有行匹配完为止。...type为合并方式 inner,行:显示x,y中共有的行; 列:显示x,y中的所有列 left,行:显示x中所有的行; 列:显示x,y中的所有列,未匹配到的值,不论字符数字,全显示为NA right,...行:显示y中所有的行; 列:显示x,y中的所有列,未匹配到的值,不论字符数字,全显示为NA full,先显示x中所有的行在y中的匹配结果,接着显示y中未匹配上的内容 match匹配的规则 first,...匹配 inner_join函数 函数结果, 行:显示x中所有能在y中匹配到行; 列:显示x,y中的所有列 library(dplyr) # 单指标匹配 inner_join(data1,data2) inner_join...(data1,data2, c('city' = 'city')) left_join函数 结果, 行:显示x中所有的行; 列:显示x,y中的所有列,未匹配到的值,不论字符数字,全显示为NA。

    2.4K20

    新TCGA+文献复现里的几种算法

    大于1则表示危险因素) 不用于估计生存率,用于因素分析,找到某一个因素对结局事件发生的贡献度 只有他离散数据和连续数据都可以接受。...表达矩阵里有的样本在突变数据maf里不一定有,要把没有突变的病人去掉 得到的小提琴图表示:VHL基因的突变是否影响PBRM1的表达 如果影响则小提琴组会有较大的差别 分组:基因表达量的高级?...Hubhub基因代表强关联度的基因,往往有高的MM值 模块内连通性:某一基因的的模块内连通性同于该基因与模块内其他关联度之和,值越大说明这个基因在这个模块越处于核心位置 整体连通性等于给定基因和整个网络中其他基因关联度之和...2.细胞表型信息phenoData:第一列细胞编号,其他列是细胞的相关信息。 3.基因注释featureData:第一列是基因编号,其他列是基因的对应信息。...,处理条件等等, 行是细胞,列是属性

    28310
    领券