前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >R tips:unique和duplicated的区别

R tips:unique和duplicated的区别

作者头像
生信菜鸟团
发布2020-05-04 14:54:18
发布2020-05-04 14:54:18
1.3K00
代码可运行
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
运行总次数:0
代码可运行

数据处理的过程中,数据清洗的时候就需要做一些去重处理,否则在后续的数据变换和分析时有太多的地方会报错。

在R中去重可以使用unique和duplicated,他们的区别如下:

  • unique只处理向量,duplicated可以处理数据框;
  • unique直接返回去重后的结果,duplicated返回重复与否的逻辑值向量(内容是TRUE或FALSE的向量);
  • 指定多个变量进行去重时只能使用duplicated,快速获取一个变量的单一值使用unique。

具体如下:

代码语言:javascript
代码运行次数:0
复制
###先构建一组假设数据###
a=rep(c(1,2,3),times=2)
b=rep(c(1,2,3),each=2)
c=1:6
d=letters[1:6]
data_test <- data.frame(a,b,c,d)
#随机复制两行数据
data_test_r <- data_test[sample(nrow(data_test),2),]
data_test <- rbind(data_test, data_test_r)
data_test
#  a b c d
#1 1 1 1 a
#2 2 1 2 b
#3 3 2 3 c
#4 1 2 4 d
#5 2 3 5 e
#6 3 3 6 f
#21 2 1 2 b
#61 3 3 6 f

###1. unique直接返回去重后的向量,而duplicated返回重复与否的逻辑值
unique(data_test$a)
#[1] 1 2 3
duplicated(data_test$a)
[1] FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
data_test$a[!duplicated(data_test$a)] #使用duplicated去除重复后的值
#[1] 1 2 3

###2. duplicated可以处理数据框
#假如要对a和b同时去重
require(magrittr)
data_test %>% dplyr::select(a,b)%>%duplicated()#最后两个数值重复
#[1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE
dup_index <- data_test %>% dplyr::select(a,b)%>%duplicated()
data_test[!dup_index,] #复制的两行数据已去重
#  a b c d
#1 1 1 1 a
#2 2 1 2 b
#3 3 2 3 c
#4 1 2 4 d
#5 2 3 5 e
#6 3 3 6 f
#三个变量也是同样的操作
dup_index <- data_test %>% dplyr::select(a,b,c)%>%duplicated()
data_test[!dup_index,] #复制的两行数据已去重
#  a b c d
#1 1 1 1 a
#2 2 1 2 b
#3 3 2 3 c
#4 1 2 4 d
#5 2 3 5 e
#6 3 3 6 f
###3. unique可用于快速的获取单一值###
data_test$d%>%unique
#[1] a b c d e f
#Levels: a b c d e f
data_test$c%>%unique
#[1] 1 2 3 4 5 6

Over。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档