首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据分析利器data.table包 —— 数据框结构处理精讲

sep2,分隔符内再分隔的分隔符,功能还没有应用; nrow,读取的行数,默认-l全部,nrow=0仅仅返回列名; header第一行是否是列名; na.strings,对NA的解释; file...n列,.N(总列数,直接在j输入.N取最后一列),:=(直接在data.table上添加列,没有copy过程,所以快,有需要的话注意备份),.SD输出子集,.SD[n]输出子集的第n列,DT[,....DT[, .SD, .SDcols=x:y] #用.SDcols 定义SubDadaColums(子列数据),这里取出x到之间的列作为子集,然后.SD 输出所有子集 DT[2:5, cat(y, "..."] #左联接 X[DT, on="x"] #右联接 DT[X, on="x", nomatch=0] #内联接,nomatch=0表示不返回不匹配的行,nomatch=NA表示以NA返回不匹配的值... 填充首尾不匹配的行,TRUE填充,FALSE不填充,与roll一同使用 which TRUE返回匹配的行号,NA返回不匹配的行号,默认FALSE返回匹配的行 .SDcols 取特定的列,然后.

5.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言基因组数据分析可能会用到的data.table函数整理

    ,默认Windows是"\r\n",其它的是"\n"; na,na 值的表示,默认""; dec 小数点的表示,默认"...,默认_; subset 指定要铸造的子集;利用; margins 函数尚不能应用(作者还没写好),预计设定编辑汇总方向; fill 填充缺失值; drop 设置成FALSE...,无匹配返回NA,也可以设置为0,0不返回该行; which 默认FALSE结果返回x和y行的联合,当是TRUE时,如果mult=“all”,返回两列,一列x列号,一列相对应的y,如果nomatch...=NA,不匹配的返回y的NA,如果nomatch=0,则跳过该列,设置mult="first“,mult=”last"则最后返回x一样的行数; verbose 当时TRUE的时候,工作台交互...; nomatch 不匹配时返回的值,强制转化整型 好了,写到这里写的都有点累了,再介绍最后一个函数,有时候我们需要了解你写的这个脚本运行所花费的时间,这个时候保存开始运行时间和结束运行时间

    3.4K10

    R语言:data.table语句批量生成变量

    我们在对多列标准进行筛选时,在之前我们还进行了一步非常重要的提取,也就是将每一列观察值提取出某一特定的字段,而后生成一系列变量,这些变量的观测值只可能存在三种情况:醛固酮、继发性醛固酮或者NA。...上述结果可以看出,我们重新生成了很多被处理过的变量,都带有后缀_xtrct,下面让村长对这一行代码进行详细解析。...:= 右边 关于 ':= lapply' 的用法,在这里小编不再赘述,如果大家对此不是很熟悉可以看这一期公众号:用data.table语句批量处理变量。...在这里通过链接中的推送的lapply使用原理,再加上stringr包中str_match这个函数的使用,截取出诊断结果中出现过的继发性醛固酮或者醛固酮,没有出现过的自动记为NA。...:=’ 左边格式的问题: ':=' 左边的格式应该是一个向量,一个带有需要被处理变量的字符格式的向量,这一点从colnames这个函数的使用可以得知。

    1.2K20

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    ")],function(x) sum(x)) 4、subset()函数 利用subset()函数进行访问和选取数据框的数据更为灵活,subset函数将满足条件的向量、矩阵和数据框按子集的方式返回。...##对于数据框 x是对象,subset是保留元素或者行列的逻辑表达式,对于缺失值用NA代替。 Select 是选取的范围,应小于x。...data.table包的语法简洁,并且只需一行代码就可以完成很多事情。进一步地,data.table在某些情况下执行效率更高。...在使用data.table时候,需要预先布置一下环境: datadata.table(data) 如果不布置环境,很多内容用不了。...data.table包提供了一个非常简洁的通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。

    20.9K32

    《高效R语言编程》5-高效输入输出

    在读取一行数据之前,应该先考虑下重复数据管理的通用规则,不改写原始数据。原始文件视为只读,保留原始文件名字并说明来源,是一个好办法。...软件配置 几个包: install.packages(c("rio","readr","data.table","feather","WDI")) 关于数据I/O的高级技巧 R语言自己的文件格式是.Rds...使用rio包的import()能导入各种格式的数据,避免加载特定格式库的麻烦。 对于高效导入大文本文件,使用readr或data.table与read.table()相当。...:1)基础R的read.csv(),2)fread() 里data.table方法3)较新的readr包里read_csv()函数。...在基础R中stringAsFactors=TRUE时才会将字符不转化为因子,而fread()和read_csv()函数默认返回字符型。

    1.6K20

    能不能让R按行处理数据?

    data.table是目前R中人气最高的数据处理包。 2....如果要自己寻找Stackoverflow上与R或是data.table相关的问题,可以在搜索栏输入[R] [data.table] Your question。 提 出问题 好啦,开始上课!...首先,假设我有一个这样的数据集(暂且命名为t1): ? 现在我想做的是对于每一行,找出非NA的值,填充到“mean.scale”这个新的变量;如果有多个非NA,那么就计算其平均值。...对,这个步骤和cast和melt函数的作用类似,只不过这里直接用了data.table自己的语句。...我们只要把数据按照fund_name分组,然后对每组求scale的均值。唯一需要注意的有两点。首先,别忘了mean中的na.rm = T参数,它能够让函数忽略缺失值。

    1.4K20
    领券