首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。...,它的输入参数和计算结果都是数据框,用法相对简单。...1 2 [6,] 1 2 [7,] 1 2 [8,] 1 2 [9,] 1 2 [10,] 1 2 ##后续处理 ##计算组的长度和组内均值...可以看到,计算结果中的第一列实际上是“SELLERID.CLIENT”,我们需要把它拆分成两列并调换顺序才行。...data.table比较简洁一步搞定,dplyr花了两步,不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.9K32

R语言学习 - 柱状图

柱子有点多,也可以利用mean±SD的形式展现 首先计算平均值和标准差,使用group_by按gene分组,对每组做summarize # 获取平均值和标准差 data_m_sd_mean 分组信息,位置计算就正确了 # position="fill" 展示的是堆积柱状图各部分的相对比例 # position="stack" 展示的是堆积柱状图的原始值 p 百分比值 首先计算百分比,同样是group_by (按照给定的变量分组,然后按组操作)和mutate两个函数(在当前数据表增加新变量) # group_by: 按照给定的变量分组,然后按组操作...# mutate: 在当前数据表增加新变量 # 第一步增加每个组的加和,第二步计算比例 data_m % group_by(variable) %>% mutate(count...(计算百分比值需要注意了, 文本显示位置还是跟之前一致) # group_by: 按照给定的变量分组,然后按组操作 # mutate: 在当前数据表增加新变量 # 第一步增加每个组 (Group和Condition

2.6K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据处理|R-dplyr

    dplyr包实现数据的清洗处理,包括数据整合、关联、排序、筛选、汇总、分组等。...Width) #计算一个或多个新列并删除原列 6)数据汇总 summarize()函数实现数据集聚合操作,将多个值汇总成一个值 summarise(iris,avg = mean(Sepal.Length...)) 利用概述函数概括数据,输入数值向量而返回单一数值: first 向量的第一个值。...Q:按品种分组,分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8)连接操作符 dplyr包里还新引进了一个操作符,%...(x,y,by = NULL) #内连接,合并数据仅保留匹配的记录 by设置两个数据集用于匹配的字段名,默认使用全部同名字段进行匹配,如果两个数据集需要匹配的字段名不同,可以直接用等号指定匹配的字段名

    2K10

    R语言之数值型描述分析

    epiDisplay 包的函数 summ( )作用于数据框可以得到另一种格式的汇总输出,它将变量按行排列,把最小值和最大值放在最后两列以方便查看数据的全距。...cont.vars dplyr::select(birthwt, age, lwt, bwt) 接下来,先计算这 3 个变量的描述性统计量,然后按照母亲吸烟情况(smoke)分组考查描述性统计量。...除了上面提到的函数 summary( ),R 中还有很多用于计算特定统计量的函数(见第二章)。...$race), mean) 这里的分类变量有 2 个,其中 smoke 有 2 个类别,race 有 3 个类别,上面的命令按照这两个变量各类别的所有组合(共 6 组)计算均值。...实际上,在第 3 章介绍的 dplyr 包里的函数 group_by( )和 summarise( )就能非常灵活地计算分组统计量。

    24920

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同的。...data.table包提供了一个非常简洁的通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。...2、按条件行筛选 从前用subset的方式进行筛选比较多, new=14,select=a:f) (1)单变量 现在data.table与dplyr from_dplyr =...DT数据集按照x分组,然后计算v变量的和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的,传递给下一个函数的第一个参数,然后就不用写第一个参数了。在dplyr分组求和的过程中,还是挺有用的。

    9.3K43

    机器学习| 一个简单的入门实例-员工离职预测

    三大指标的计算如下所示: (1)Accuracy=(TP+TN)/(TN+FN+FP+TP):即准确度,是指正确预测的离职与未离职员工占总员工数的百分比; (2)Precision=TP...类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。...参数position=fill表示垂直地堆叠分组条形图并规范其高度相等。...其中rpart包中的rpart()函数可用于构造决策树,函数中的第一个参数是指用数据集中的其他所有剩余变量构建一个用来预测left这个因变量的决策树模型,点即代表剩余的所有变量,模型的变种可以通过修改公式中的自变量和因变量来实现...我们重复以上的建模和模型评价步骤,也即通过以下代码获取当前最优模型的各项评价指标。 ? 5.调整后的模型评价与对比 再次将两个模型的结果输出后进行对比分析。 ?

    3K30

    DAY6-学习R包

    install.packages(“包”)或BiocManager::install(“包”)install.packages("dplyr") 加载 library和require 使用一个R包需先安装再加载...library(dplyr)dplyr五个基础函数mutate(),新增列——mutate(test, new = Sepal.Length*Sepal.Width)要修改的数据框的名称将创建的新变量的名称将分配给新变量的值...sd()计算标准差group_by(test, Species)#按照Species分组并汇总summarise(group_by(test,Species),mean(Sepal.Length),sd...(Sepal.Length))#按照Species分组,计算每组Sepal.Length的平均值和标准差并汇总dplyr两个实用技能管道操作 %>% —— 相当于将左边的作为右边函数的第一个参数,快捷键..., y = test1, by = 'x')简单合并bind_rows()函数需要两个表格列数相同bind_cols()函数则需要两个数据框有相同的行图片

    23830

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    数据集如果用于统计与绘图,需要满足一定的格式要求,(Wickham, 2014) 称之为 整洁数据 (tidy data),基本要求是每行一个观测,每列一个变量,每个单元格恰好有一个数据值。...使用统计相关参数计算列表内相关内容。如sum, mean, median, min, max。...比如,需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然,如果有许多变量要计算不止一个统计量,就需要人为地将每一个变量的每一个统计量单独命名。...7 2 Quebec Qn2 7 3 Quebec Qn3 7 4 Quebec Qc1 7 5 Quebec Qc3 7 6 Quebec Qc2 7 这里有个小问题,交叉分组计算频数后的结果仍按照外层分类变量...将数据框按某列拆分为多个数据框,并储存在列表中。

    10.9K30

    R语言数据处理:飞机航行距离与到达延误时间有什么关系??

    数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。...而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。...3.数据计算 数据处理之后,就进入计算分析步骤啦。在这个环节,主要历经三个过程: 数据分组(Split):可以指定目标变量,将数据进行分组。...) by_dest 由图可知,经分组后,一共有104组数据,即本次分析的目的地有104个。...拿上述的代码进行举例,在没用管道之前,代码是这样的: by_dest 按目的地分组 delay_sum <- summarise(

    3.1K40

    GEO数据挖掘-基于芯片

    ids R包里的注释表格变成数据框# 方法2 下载并读取GPL网页的表格文件,按列取子集#⭐要操作的地方library(tinyarray...在差异基因表达分析中,设计矩阵是一个非常重要的步骤。设计矩阵描述了实验设计和样本分组信息,为后续的线性模型拟合提供基础。注:因子变量 GroupGroup 是一个因子变量,表示实验分组。...在设计矩阵 design 中,每个因子(即实验组)都有一个对应的系数。coef = 2 表示我们要提取的是设计矩阵中第二个因子的系数(在这种情况下,通常是对照组与处理组的比较)。...5.2.4 ids = distinct(ids,symbol,.keep_all = T)使用 dplyr 包中的 distinct 函数,从数据框 ids 中移除重复的行,并保留每个 symbol...scale = "row"`:按行标准化数据,使得每个基因的表达值在同一范围内进行比较。

    18210

    快速掌握R语言中类SQL数据库操作技巧

    例如:合并来源不同,结构相似的两个表格 3.1 向量合并 #一维向量合并直接将要合并的变量以","分割放到c()中即可。...此处仅讲述aggregate数据分组计算内容,更多分组计算内容 参考→《R语言 分组计算,不止group_by》 dplyr包中的group_by联合summarize group_by和summarise...单变量分组计算 group_by和summarise多变量分组计算 ddply分组计算示例 5.1 aggregate语法 aggregate(x, by, FUN) #x为数据集 #by为分组变量列表...可以重点了解一下 aggregate(formula, data, FUN) #Formulas, one ~ one, one ~ many, many ~ one, and many ~ many: #一组对一计算变量函数型分组计算...,函数型分组计算:cbind(计算变量1,计算变量2)~分组变量1+分组变量2…… > aggregate(cbind(ncases, ncontrols) ~ alcgp + tobgp, data

    5.7K20

    动态地理信息可视化——leaflet在线地图简介

    该包的代码对R语言的文档输出系统有着良好的支持,可以很方便的嵌入knitr/rmarkdown文档中,也能无缝嵌入shiny系统的webapp中,兼容性可称之为逆天。...(很多R函数是需要打开dplyr包并借助其完成对于管道函数的支持)。 以上例子我们可以完全使用管道操作函数进行代码简化。...colorNumeric:针对数值变量进行均匀插值,将颜色(定义的)连续均匀分布在数值区间内。 colorBin:针对数值型变量进行数量段的分组,然后按照组别分别填色。...(其实相当于对数值型变量进行划组,生成有序的因子组,然后以分段因子变量的形式进行颜色映射,但是这个过程在leaflet函数中是自动化完成的,无需我们手工生成新变量,这一点儿是leaflet函数相对于ggplot...colorQuantile:也是针对数值型变量,只是是以百分比分位点的形式将数值变量划分为一组百分比分位点区间(其实理念和过程与colorBin一致,只是从绝对量分组变成了百分比分组),然后进行颜色映射

    4.2K40

    R语言之可视化(31)扫地僧easystats(2)相关性分析

    它轻巧,易于使用,并允许计算许多不同类型的相关性,例如偏相关性,贝叶斯相关性,多级相关性,或Sheperd的Pi相关性(鲁棒相关性的类型),距离相关(一种非线性相关性)等等,还允许它们之间进行组合(例如...不同的相关方法 Pearson’s correlation:两个变量的协方差除以其标准偏差的乘积。...两个变量>之间的Spearman相关性等于这两个变量的等级值之间的Pearson相关性;皮尔森的相关性评估线性关系,而>斯皮尔曼的相关性评估单调关系(无论线性与否)。...Distance correlation距离相关:距离相关可测量两个随机变量或随机矢量之间的线性和非线性关联。这与Pearson的相关性相反,后者只能检测两个随机变量之间的线性关联。...但是分组后,发现组内是正相关

    1.9K32

    手把手教你R语言方差分析ANOVA

    在R语言中,实现方差分析主要涉及到以下步骤:数据导入数据清洗ANOVA计算结果解析ANOVA评估首先,你需要一个数据集,其中包含至少一个分类变量(通常是因子类型)和一个或多个数值型变量。...,X是分组变量);再使用summary函数获取单因素方差分析的结果。...;Mean Sq列是平方和的平均值,通过将平方和除以每个参数的自由度来计算;F value列是F检验的检验统计量。这是每个自变量的均方除以残差的均方。...F值越大,自变量引起的变化越有可能是真实的,而不是偶然的; Pr(>F)列是F统计量的p值。这表明,如果组均值之间没有差异的原假设成立,那么从检验中计算出的F值发生的概率大小。...= 77)t.test(RR ~ D, data = data_ttest)step6: 后置检验ANOVA结果仅仅揭示多个组间的差异结果,具体到哪两个组内部差异还需要做后置检验后置检验通常采用TukeyHD

    62410

    SQL优化一(SQL使用技巧)

    分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值。 分析函数和聚合函数的不同之处是什么?...普通的聚合函数用group by分组,每个分组返回一个统计值,返回的字段名只能是分组名。...BY子句中表达式的值,从查询返回的每一行,计算它们与其它行的相对位置。...组内的数据按ORDER BY子句排序,然后给每一行赋一个号,从而形成一个序列,该序列从1开始,往后累加。每次ORDER BY表达式的值发生变化时,该序列也随之增加。...分组,再对分组中的sal降序,取出第一个sal的员工号 ?

    2.6K40

    Day6 呦呦鹿鸣—学习R包

    )以dplyr包为例 官方包的文档dplyr示例数据test R自带的iris数据第1,2,51,52,101,103行?...x + y)2.select(),按列筛选,按名称选择变量(1)按列号筛选select(test,1)# 筛选test数据集的第一列iris %>% select(1:3)# 筛选iris数据集的第一到第三列...summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) # 先按照Species分组,计算每组Sepal.Length...(Sepal.Length), sd(Sepal.Length))R中的管道操作符2:count统计某列的unique值count(test,Species)分类变量每个变量值的频数dplyr处理关系数据将...2个表进行连接1.內连inner_join,取交集inner_join(test1, test2, by = "x")满足两个条件:有相同变量名,相同变量名的列里有相同元素;2.左连left_join列表书写顺序决定了最终合成列表中列的顺序

    17110

    ggstatsplot:R统计绘图的颜值天花板

    01 — 安装与基本介绍 绘图类型统计 函数 作图类型 描述 ggbetweenstats 小提琴图 组/条件间的比较 ggwithinstats 小提琴图 组/条件内的比较 gghistostats...直方图 分配数字变量 ggdotplotstats 点图/图表 分配有关标记数字变量的信息 ggscatterstats 散点图 两个变量之间的相关性 ggcorrmat 相关矩阵 多个变量之间的相关性...(“ggstatsplot”) library(ggstatsplot) 02 — 函数介绍 (1)ggbetweenstats:小提琴图,箱形图 此函数用于创建小提琴图、箱形图或组间或组内比较的组合图...此外,该函数还有一个grouped_变量,可以方便地在单个分组变量上重复相同的操作。...该函数还有一个grouped _变量,可以方便地在单个分组变量上重复相同的操作。

    2.4K20

    主成分分析PCA谱分解、奇异值分解SVD预测分析运动员表现数据和降维可视化

    加载数据并仅提取训练的个体和变量: head(dec) 计算 PCA 在本节中,我们将可视化 PCA。...进行可视化 计算 PCA prcomp 可视化 特征值 (_碎石图_)。显示每个主成分解释的方差百分比。 具有相似特征的个人被归为一组。 viz(res ) 变量图。正相关变量指向图的同一侧。...可以使用下面的 R 代码: # 对预测个体进行标准化 ined <- scale # 个体个体的坐标 rtaton ird <- t(apply) 补充变量 定性/分类变量 数据集 在第 13 列包含与比赛类型相对应的...定性/分类变量可用于按组为样本着色。分组变量的长度应与训练个体的数量相同。 groups <- as.factor fvnd(res.pca ) 计算分组变量水平的坐标。...# 预测坐标并计算cos2 quaord <- cor quaos2 <- qord^2 # 变量的图形,包括补充变量 p <- fviar(reca) fvdd(p, quord, color ="blue

    1.2K40

    dplyr数据处理

    一、筛选过滤行 filter() filter()函数用于筛选出一个观测子集,第一个参数是数据库框的名称,第二个参数以及随后的参数是用来筛选数据框的表达式。...() select()函数用于筛选有用的列,第一个参数还是数据库,第二个参数以及后面是需要的列名,列名有多种书写方式,可以使用冒号作为范围,也可以使用 stars_with,ends_with...(starts_with('Pop')) %>% View() 五、抽样 抽样的函数使用起来比较容易,可以按照个数抽样,也可以按照百分比进行抽样。...mtcars %>% dplyr::sample_n(10) mtcars %>% dplyr::sample_frac(0.2) 六、创建新变量 有时需要对已有变量进行重新计算,例如计算几列的和...,会某一列取对数,这样将生成新的变量,这个时候可以使用 mutate 函数。

    1.5K10

    从头学R语言——DAY 3

    学习资源来自生信星球R包R包直接在Rstudio页面下载的3大来源:官网CRAN、Biocductor、github设置镜像CRAN的镜像网站可以直接在tools-global options(或快捷键...)dplyr包dplyr作为tidyverse中的核心包之一,主要用于数据转换。...Sepal.Length的平均值和标准差# 先按照Species分组,计算每组Sepal.Length的平均值和标准差group_by(test, Species)summarise(group_by(...(test1, test2, by = 'x')#全连接,取并集full_join( test1, test2, by = 'x')#半连接,返回能够与y表匹配的x表所有记录semi_join(x =...,是变量的类型:int:整数型变量dbl:双精度浮点数型变量,即实数chr:字符串dttm:日期+时间型变量lgl:逻辑型变量fct:因子,R中具有固定数目的值的分类变量date:日期型变量深刻感受不同连接的区别存疑问题

    8410
    领券