具有不带慢速DT的列的变量名的data.table分组操作[，get(get(ColName))，by = grp] - 腾讯云开发者社区

文章/答案/技术大牛

发布

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...除了行，就是列的问题了。在data.table操作列，真的是费劲。。。常规来看， data[，.

11.3K4 3

用data.table语句批量处理变量

问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...我们现在要对列进行操作（转换类型），因此本期是关于“j”的内容。下面正式开始，笔者在帮他人处理数据时遇到了需要同时为一系列变量进行相同处理，先来看数据结构： ?...首先，变量的数量实在太多，如果输这34个变量名尚且能接受的话，那万一要是有100个变量呢，“输”了你赢了世界又如何；再者，未经过清洗和结构化的变量名存在着太多难以预计的问题，我们来看代码中这个示例的变量名...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。...注意事项：.SD用法可以说.SD是data.table处理中非常重要的一个用法，但也切勿乱用，在这里笔者发现了一个关于.SD的问题，首先我们改一下代码： # 将 := 左边的DT改成.SD ----

1.5K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

「Workshop」第五期：使用data.table操作数据

2 3 2: banana 3 6 3: orange 5 3 4: orange 6 6 对列 j 进行操作按条件选取列...[, c("c", "d") := list(1, 2)] 用by进行分组基本操作 > dt[, name, by = ...., by = c("name")) [1] 3 key(dt, colname)设置索引 setkey(dt, NULL) 去除索引 ⚠️：当提取的索引是数字时格式不同 > setkey(dt, name...data.table 按相同的列内容进行data.table组合 ?...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt data.table(kinds = c(rep("peach", 2), rep("grape",

3.6K5 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped...使用i DT[3：5] #选取3到5行的数据 class(DT) [1] "data.table" "data.frame" DT[v1=="A"] #基于条件的选择 DT[v1 %in% c("A",..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...(sum_v1=sum(v1),sd_v3=sd(v3))] 还可以直接给计算的列赋予名称哦！！功能强大得我都要笑开花了！使用by 这还只是小试牛刀，你忘了我们还有个by吗！！ DT[,.

3.1K7 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...#取第二行 DT[2:3] #取第二到第三行 DT[order(x)] #将DT按照X列排序，简化操作,另外排序也可以setkey(DT,x)，出来的DT就已经是按照x列排序的了。...(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和，并且结果按照x排序 DT[, sum(y)..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean

7.6K2 0

关于data.table中i, j, by都为数字的理解

在往期的公众号文章，都提到了data.table的主要语句DT[i, j, by], 简而言之，i 用来选择或者排序，by 用来分组，j 用来运用函数进行处理。...以mtcars这个R自带的数据集为例，我们知道mtcars[1]的运行结果，是选择这个数据集的第一行，结果如下： ? mtcars[1,1]的运行结果，是选择第一行第一列的元素，结果如下： ?...可见，在DT的i中输入一个数字和用一般的提取符号`[`只输入一个数字的结果完全一样，就是提取这个数据集中的某一行。...接下来，我们在by的位置加上一个1，代码如下： mtcars[1, .SD, 1] 再来看看运行结果： ? 这时多了一列变量，变量名缺失，且只有一行观测值为数字“1”。...结果分析从这样一段拆解当中，我们大致就可以明白为什么会出现这样的结果了，整体的运行思路就是：首先选出了第一行，而后在by中以一个变量名默认为NA的变量为基准，最后在j中生成了一个默认变量名为V1的变量

1.6K3 0

R语言实现定性资料的秩和检验

介绍定性资料比如等级，毒性，应答等，可以以具有分级的因子的形式表示，比如(+ ++， +++)，分别对应因子的1,2,3种水平，这样不同组样本只要看这些数据的等级的排列是否一致就可以判断这两个群体的分布是否有差异...代码 library(data.table) setwd("/我的文档/project/test") dt data.table...包，也可以用read.table dt$分组 dt$分组) # 分组转变成因子 dt$毒性 dt$毒性)) #定性资料转变成因后再转成可以计算的数字...# 进行检验计算p值和zscore pvalue 分组, data = dt)$p.value zscore get-the-z-score-in-wilcox-test-in-r

8452 0

Excel催化剂开源第12波-VSTO开发遍历功能区所有菜单按钮及自定义函数清单

dt.Columns.Add("二级分组"); dt.Columns.Add("三级分组"); dt.Columns.Add("功能名称");...(); dr["一级分组"] = grp.Label; dr["二级分组"] = grp.Label;...(); dr["一级分组"] = grp.Label; dr["二级分组"...(); dr["一级分组"] = grp.Label; dr["二级分组"] = grp.Label;...(); dr["一级分组"] = grp.Label; dr["二级分组"] = grp.Label

1.2K2 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...# 返回第二列为一个向量 DT[, V2] ## [1] "A" "B" "C" "A" "B" "C" "A" "B" "C" "A" "B" "C" # 返回第二列与第三列为一个data.table...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....C 高级data.table操作 # 返回倒数第二行 DT[.N-1] ## V1 V2 V3 V4 ## 1: 1 B -0.38 11 # 返回行数 DT[, .N] ## [1]...V4 ## 1: A -1.49 22 ## 2: B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 DT[, .

2.2K1 0

简单代码生成器原理剖析（二）

、列的相关信息，再运用StringBuilder类的其AppendLine方法追加字符串，最后早运用File.WriteAllText方法将字符串写入文件。...第二版代码生成器在第一版的基础上扩展了以下功能：使用了部分类（partial）：当使用大项目或自动生成的代码（如由 Windows 窗体设计器提供的代码）时，将一个类、结构或接口类型拆分到多个文件中的做法就很有用...增加了ToModel方法：将数据库表中一行数据封装成Model类的对象返回。...colName+"\", model."...+colName+" = row.IsNull(\""+colName+"\") ?

9658 0

R语言学习笔记之——数据处理神器data.table

rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...列索引的位置不仅支持列名索引，可以直接支持内建函数操作。 mydata[,.(flight/1000,carrier,tailnum)] 支持直接在列索引位置新建列，赋值符号为:=。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....数据合并： data.table的数据合并方式非常简洁； DT data.table(x=rep(letters[1:5],each=3), y=runif(15)) DX data.table

4.3K8 0

Python的Datatable包怎么用？

如果你是 R 的使用者，可能已经使用过 data.table 包。...此外，datatable 解析器具有如下几大功能：能够自动检测分隔符，标题，列类型，引用规则等。能够读取多种文件的数据，包括文件，URL，shell，原始文本，档案和 glob 等。...▌删除行/列下面展示如何删除 member_id 这一列的数据： del datatable_df[:, 'member_id'] ▌分组 (GroupBy) 与 Pandas 类似，datatable...同样具有分组 (GroupBy) 操作。...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100

8.8K3 0

Python的Datatable包怎么用？

9.4K1 0

一文入门Python的Datatable操作

9.7K5 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...创建data.table与创建data.frame类似： dt = data.table(x = 1:3, y = rnorm(3), z = letters[1:3]) dt #> x...data.table的基本语法是dt[i, j, by]，简单说就是使用i选择行，用by分组，然后计算j。接下来我们看看data.table继承了什么，增强了什么。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...(year = year(date))] par(oldpar) 这里我们没有为plot()设定data参数，图像也成功绘制，这是因为该操作是在data.table的语义中进行的。

7.3K2 0

R海拾遗_hdf5r包

，一个分组用来装mtcars的数据，一个用于nycflights13 mtcars.grp <- file.h5$create_group("mtcars") flights.grp grp[["flights"]] <- nycflights13::flights 从weather数据中提取站点为EWR的风向和风速数据，并保存为matrix，小时为列，日期为行 #...然而，hdf5-table类型只有一个维度，因此，不可能有选择地读取列所有的列都必须在同一时间读取 # 读取1-5行的数据 weather_ds[1:5] ## origin year month...一般为0 wind_dir_ds$get_fill_value() ## [1] 0 # 天趣1行25列的数字为1，其他位置自动添加0 wind_dir_ds[1, 25] <- 1 wind_dir_ds...[1:2, ] # 扩展了数据集，使其具有第25列，除了第一行外，其余都填充了Os， ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10

1.8K1 0

【技巧】如何快速按照日期分组

本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...实战操作生成样例数据集首先我们生成一个样例数据集： # 生成 100 个日期，从2018-01-01开始 set.seed(42) n <- 100 dt data.table(date =...按照“是否为周三”进行分类如果我们想把样本分成两组，一组是周三（True），一组是非周三（False），则只要使用 wday(date)==3来生成一列值为 True或者 False的向量就行。...# 按照是否为“周三”进行分组：“True”即周三，“False”即除周三以外的任何日期 dt[, .(x = mean(x)), keyby = ....# 按照“每3天”进行分组 dt[, .(x = mean(x)), keyby = .

2.9K3 0

data.table包使用应该注意的一些细节

fread中nThread 参数的使用注意默认nThread=getDTthreads()，即使用所有能用的核心，但并不是核心用的越多越好，本人亲自测试的情况下，其实单核具有较强的性能，只有在数据大于... as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名在...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R...tstrsplit函数可以将一列按照分隔符分成多列，函数返回的是一个列表，举例：DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]，将x列按照/...分隔，分割成c1，c2两列支持类似于SQLs的分组运算带有rollup， cube， groupingsets函数参考资料 data.table 1.11.2 manual：https://cran.r-project.org

1.8K1 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

：对每个小片断独立进行操作； combine：把片断重新组合。...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...可见order用法 subset()在数据集中非常好用，which是针对较小的数据筛选，比较低纬度的数据筛选时候可以用的。 subset=which+数据集操作 which=order+多变量运行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。

22K3 2

深入对比数据科学工具箱：Python和R之争

现在，为了加强数据框的操作，R中更是演进出了data table格式（简称dt），这种格式以dt[where,select,group by] 的形式支持类似SQL的语法。...数据框操作 Python R 按Factor的Select操作 df[['a', 'c']] dt[,....(a,c),] 按Index的Select操作 df.iloc[:,1:2] dt[,1:2,with=FALSE] 按Index的Filter操作 df[1:2] dt[1:2] groupby分组操作...绘制聚类效果图这里以K-means为例，为了方便聚类，我们将非数值型或者有确实数据的列排除在外。...下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比： image.png 我曾经用data.table和pandas分别读取过一个600万行的IOT

1.4K4 0

点击加载更多

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

用data.table语句批量处理变量

「Workshop」第五期：使用data.table操作数据

懒癌必备-dplyr和data.table让你的数据分析事半功倍

R语言数据分析利器data.table包 —— 数据框结构处理精讲

关于data.table中i, j, by都为数字的理解

R语言实现定性资料的秩和检验

Excel催化剂开源第12波-VSTO开发遍历功能区所有菜单按钮及自定义函数清单

「R」data.table 包功能特性学习

简单代码生成器原理剖析（二）

R语言学习笔记之——数据处理神器data.table

Python的Datatable包怎么用？

Python的Datatable包怎么用？

一文入门Python的Datatable操作

「R」数据操作（三）：高效的data.table

R海拾遗_hdf5r包

【技巧】如何快速按照日期分组

data.table包使用应该注意的一些细节

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

深入对比数据科学工具箱：Python和R之争

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐