首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    —————————————————————————————————————————————— 一、重要的key() data.table中的key是整个框架里面的灵魂,通过设置,data.table整个数据就会按照...设置key的方式有很多种: 1、创建数据时直接设置key dt data.table(a=c('A','B','C','A','A','B'),b=rnorm(6),key="a") 2、setkey...—————————————————————————————————————————————— 六、额外的参数(来源:R语言data.table速查手册) 1、mult参数 mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素...nomatch参数用于控制,当在i中没有到匹配数据的返回结果,默认为NA,也能设定为0。...0意味着对于没有匹配到的行将不会返回。

    9.3K43

    R语言基因组数据分析可能会用到的data.table函数整理

    ,R层次的C代码 data.table TRUE返回data.table,FALSE返回data.frame 可见1.8GB的数据读入94秒,读入文件速度非常快 fwrite 对数据框数据进行处理后...="id"; between 是data.table i 语法的扩展功能,between等同于x >= lower 并且 x 设置为TRUE的时候,...,可以用beween foverlaps 寻找重叠的区域,返回index对,x是数据很大但都是小区域的data.table,用来检索,y是检索用的资料,数据较小,都是大区域。...,默认all,也可以设置为"first”和last; nomatch 默认nomatch=NA,无匹配返回NA,也可以设置为0,0不返回该行; which 默认FALSE结果返回...x和y行的联合,当是TRUE时,如果mult=“all”,返回两列,一列x列号,一列相对应的y,如果nomatch=NA,不匹配的返回y的NA,如果nomatch=0,则跳过该列,设置mult="first

    3.4K10

    data.table包使用应该注意的一些细节

    因此对于不是非常巨大的文件,建议设置为1,不要使用全部核心 fread中sep是自动检测的   所以在循环读入文件的过程中,就算不同文件的分隔符不同,也可以循环一次性方便的读入; 还有就算后续改变了文件的分隔符...  as.matrix作用于data.table时会调用as.matrix.data.table,有一个rownames参数可以指定保留为行名的列 矩阵转换成data.table时可以保留列名   在...as.data.table函数中同样有一个rownames参数,设置为T可以将行名保留下来作为data.table的一列 不建议set和for循环一起使用   虽然set可以在内存上直接改变数值,但在R...tstrsplit函数可以将一列按照分隔符分成多列,函数返回的是一个列表,举例:DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][],将x列按照/.../web/packages/data.table/data.table.pdf

    1.5K10

    【C++】C++ 类中的 this 指针用法 ③ ( 全局函数 与 成员函数 相互转化 | 有参构造函数设置默认参数值 | 返回匿名对象与返回引用 )

    return s; } 详细代码 , 参考最后的完整代码示例 ; 二、有参构造函数设置默认参数值 ---- 为 Student 类定义了有参构造函数 , 则其默认的无参构造函数 , 就不会生成...; 如下带参数的构造函数 , 并且为其 有参构造函数 的参数 设置一个默认值 , 此时就可以使用 类名 对象名 的方式定义对象变量 ; class Student { public: // 带参构造函数...返回的是一个匿名对象 , 该匿名对象 是在 成员函数 中新创建的对象 ; // 成员函数中, 将两个 Student 对象相加 // 全局函数 转为 成员函数 , 少了一个参数 // 返回一个新...return s; } 如果不返回新的对象 , 而是将 两个 对象相加 , 最终结果累加到 本对象中 , 则返回 Student 引用即可 ; // 成员函数中, 将两个 Student 对象相加..., 就是返回自身对象变量 // this 是指针 , *this 是指针指向的 自身对象 return *this; } 返回 引用 , 就是返回自身对象 ; this 是指针 , *this

    23820

    手把手教你用R语言读取CSV文件

    读取CSV文件最好的方法是使用read.table函数,许多人喜欢使用read.csv函数,该函数其实是封装的read.table函数,同时设置read.table函数的sep参数为逗号(",")。...read.table函数返回的结果为data.frame。 read.table函数的第一个参数为文件所在路径,可以是本地文件,也可以是网页上的文件。本书主要是从网页读取文件。...read.table函数还有许多参数,最常用的是quote和colClasses参数,分别设置字符的包围符和每列的数据类型。...readr包中的所有数据提取函数返回的是tibble,该数据类型是data.frame的扩展。最明显的变化是打印的元数据,比如行列数和每列的数据类型。...该函数读取速度比read.table函数快,结果为data.table对象。data.table对象是data.frame的扩展,其是data.frame的优化。

    22.4K21

    数据流编程教程:R语言与DataFrame

    数据建模 broom 1. broom 在机器学习的本质其实就是各种姿势的回归,而在R中的各种回归分析往往不会返回一个整齐的data frame 结果。...比如: 这时候broom包就派上用场了,直接将统计结果转化为data frame格式: glance()函数,返回data frame格式的部分参数结果 七....DataFrame优化 1. data.table 众所周知,data.frame的几个缺点有: (1)大数据集打印缓慢 (2)内部搜索缓慢 (3)语法复杂 (4)缺乏内部的聚合操作 针对这几个问题,data.table...data.table还参考了NoSQL中流行的Key-Value形式,引入了setkey()函数,为数据框设置关键字索引。...对比操作 对比data.table 和 dplyr 的操作: 3. apply函数族 4. join 操作 5. 拼接操作 更多操作详情可查看data.table速查表。 八.

    3.9K120

    R练习50题 - 第一期

    只可惜Renkun并没有提供答案,所以我们在这里提供我们的版本。 我们的所有答案都将使用data.table这个包。我们认为data.table是最优秀的数据处理工具,没有之一。...关于data.table的神奇之处以及它和其他工具(例如pandas)的比较,欢迎大家戳它的官网:github.com/Rdatatable/data.table....拥有data.table的基础会有助于你更快看懂答案,但并非必要。我们会在讲解答案的时候穿插data.table的教学。...关于data.table的入门,我们认为最好的教材是它的Github Wiki( github.com/Rdatatable/data.table/wiki)。...它是data.table内置函数之一,和unique几乎执行相同的操作,唯一不同的是,unique返回的是不重复的item(是一个向量),而uniqueN返回的是不重复的数量(是一个数字)。

    2.5K40
    领券