Loading [MathJax]/jax/output/CommonHTML/config.js
社区首页 >问答首页 >在dplyr中使用columns将不存在的列添加到数据帧

在dplyr中使用columns将不存在的列添加到数据帧
EN

Stack Overflow用户
提问于 2022-08-15 22:05:09
回答 3查看 78关注 0票数 2

我有一个列名的列表如下,

代码语言:javascript
代码运行次数:0
复制
cols <- c('grade', 'score', 'status')

如果数据帧在cols向量中没有任何列,我希望使用可变和跨的方式将该列(值作为NA)添加到数据帧中。怎么做?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2022-08-15 22:40:37

base解决方案:

代码语言:javascript
代码运行次数:0
复制
df[setdiff(cols, names(df))] <- NA

此命令可用于管道:

代码语言:javascript
代码运行次数:0
复制
df %>%
  `[<-`(, setdiff(cols, names(.)), NA)

#   id score grade status
# 1  1    94    NA     NA
# 2  2    98    NA     NA
# 3  3    93    NA     NA
# 4  4    82    NA     NA
# 5  5    89    NA     NA

数据

代码语言:javascript
代码运行次数:0
复制
set.seed(123)
df <- data.frame(id = 1:5, score = sample(80:100, 5))
票数 4
EN

Stack Overflow用户

发布于 2022-08-15 22:49:25

一种使用dplyr::mutate()的解决方案

假设您的数据框架是diamonds。然后向原始数据框架(即此处的diamond )添加一个具有与列名相同的列数的tibble数据框架(即,在此MWE中的三列)。

自动创建包含NA的tibble

(多亏了the comment by Darren Tsai)

要创建一个具有与列名相同的列数的tibble,您可以首先创建一个matrix,它的列数与matrix(ncol = length(cols))的列名相同,其次,通过as_tibble()将其转换为tibble数据框架,并使用as_tibble()内部的.name_repair = ~ cols设置列名。

创建矩阵时,tibble的每一列的值为logicalNA,。注意,如果您希望将这些新添加的列分别作为NA_integer_列、数值列、复杂列(例如1+ 5i)和字符列,那么您可能更喜欢使用NA_real_NA_complex_NA_character_中的一种而不是NA。在这种情况下,您可以使用mutate来修改列的类型。

您可以在mutate中创建这样一个tibble。

代码语言:javascript
代码运行次数:0
复制
cols <- c('grade', 'score', 'status')

diamonds |>
  mutate(
    matrix(
      ncol = length(cols)
    ) |>
      as_tibble(
        .name_repair = ~ cols
      ) |>
      ## if you want to interpret the grade as `factor` type...
      mutate(
        grade = as.factor(grade)
      )
  )

## # A tibble: 53,940 × 13
##    carat cut       color clarity depth table price     x     y     z grade score
##    <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl> <fct> <lgl>
##  1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43 NA    NA
##  2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31 NA    NA   
##  3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31 NA    NA
##  4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63 NA    NA
##  5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75 NA    NA
##  6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48 NA    NA
##  7  0.24 Very Good I     VVS1     62.3    57   336  3.95  3.98  2.47 NA    NA   
##  8  0.26 Very Good H     SI1      61.9    55   337  4.07  4.11  2.53 NA    NA
##  9  0.22 Fair      E     VS2      65.1    61   337  3.87  3.78  2.49 NA    NA
## 10  0.23 Very Good H     VS1      59.4    61   338  4     4.05  2.39 NA    NA
## # … with 53,930 more rows, and 1 more variable: status <lgl>

若要创建没有与原始数据框架匹配的任何列的NA tibble,请执行以下操作

(多亏了the comment by Julian)

要确保仅当原始数据帧中没有cols向量中的任何列时,才会将列添加到原始数据帧中,您必须选择原始数据框架中不存在的NA tibble列。您可以通过使用!select(matches(colnames(diamonds)))来做到这一点。

代码语言:javascript
代码运行次数:0
复制
cols <- c("grade", "price", "status")

matrix(ncol = length(cols)) |>
  as_tibble(
    .name_repair = ~ cols
  ) |>
  mutate(
    grade = as.factor(grade)
  )

diamonds |>
  mutate(
    matrix(
      ncol = length(cols)
    ) |>
      as_tibble(
        .name_repair = ~cols
      ) |>
      ## if you want to interpret the grade as `factor` type...
      mutate(
        grade = as.factor(grade)
      ) |>
      ## select columns that are not present in the original data frame 
      dplyr::select(
        !matches(colnames(diamonds))
      )
  )

## # A tibble: 53,940 × 12
##    carat cut      color clarity depth table price     x     y     z grade status
##    <dbl> <ord>    <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl> <fct> <lgl> 
##  1  0.23 Ideal    E     SI2      61.5    55   326  3.95  3.98  2.43 NA    NA
##  2  0.21 Premium  E     SI1      59.8    61   326  3.89  3.84  2.31 NA    NA
##  3  0.23 Good     E     VS1      56.9    65   327  4.05  4.07  2.31 NA    NA    
##  4  0.29 Premium  I     VS2      62.4    58   334  4.2   4.23  2.63 NA    NA
##  5  0.31 Good     J     SI2      63.3    58   335  4.34  4.35  2.75 NA    NA
##  6  0.24 Very Go… J     VVS2     62.8    57   336  3.94  3.96  2.48 NA    NA
##  7  0.24 Very Go… I     VVS1     62.3    57   336  3.95  3.98  2.47 NA    NA
##  8  0.26 Very Go… H     SI1      61.9    55   337  4.07  4.11  2.53 NA    NA    
##  9  0.22 Fair     E     VS2      65.1    61   337  3.87  3.78  2.49 NA    NA
## 10  0.23 Very Go… H     VS1      59.4    61   338  4     4.05  2.39 NA    NA
## # … with 53,930 more rows
票数 2
EN

Stack Overflow用户

发布于 2022-08-15 22:27:31

代码语言:javascript
代码运行次数:0
复制
df <- data.frame(grade = c("A", "B", "C"),
                 score = c(1, 2, 3))

cols <- c('grade', 'score', 'status')

for (i in cols){
    if (!(i %in% colnames(df))){
        df[i] <- NA
    }
}

> df
  grade score status
1     A     1     NA
2     B     2     NA
3     C     3     NA
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73369426

复制
相关文章
MySQL 子查询 嵌套查询
意思就是内层的select查到了(至少查到了一行)才进行查询,没有查到就不进行查询。
宁在春
2022/10/31
12.1K0
mysql中多表嵌套查询例子_mysql子查询嵌套规则
MySQl从4.11版后已经完全支持嵌套查询了,那么下面举些简单的嵌套查询的例子吧(源程序来自MySQL User Manual):
全栈程序员站长
2022/11/01
3.4K0
MySQL 嵌套查询_嵌套查询和嵌套结果的区别
where course.cno=sc.cno and course.cname=’数据库’ and grade>=80)[/code](3)查询计算机系最高成绩。
全栈程序员站长
2022/09/22
4.3K0
MySQL——优化嵌套查询和分页查询
嵌套查询(子查询)可以使用SELECT语句来创建一个单列的查询结果,然后把这个结果作为过滤条件用在另一个查询中。嵌套查询写起来简单,也容易理解。但是,有时候可以被更有效率的连接(JOIN)替代。
撸码那些事
2018/10/08
2.9K0
MySQL——优化嵌套查询和分页查询
mysql嵌套子查询的应用
sql语句中一个查询有时未必能满足需求,应对多表联查时就需要进行嵌套查询。嵌套查询的意思是,一个查询语句块可以嵌套在另外一个查询块的where子句中,称为嵌套查询。其中外层查询也称为父查询,主查询。内层查询也称子查询,从查询。 嵌套查询的工作方式是:先处理内查询,由内向外处理,外层查询利用内层查询的结果嵌套查询不仅仅可以用于父查询select语句使用。还可以用于insert、update、delete语句或其他子查询中。
OECOM
2020/07/01
4.2K0
嵌套查询效率_sql嵌套查询例子
嵌套查询是 SQL 中表达能力很强的一种机制,既给应用带来了方便也给查询优化带来了很大的挑战。本文总结一下经典的单机系统对嵌套查询的优化。
全栈程序员站长
2022/09/27
2.4K0
sql server嵌套查询实验_exists嵌套查询
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/169426.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/22
1.8K0
sql的嵌套查询_嵌套查询和嵌套结果的区别
SQL连接查询和嵌套查询详解 连接查询 若一个查询同时涉及两个或两个以上的表,则称之为连接查询。连接查询是数据库中最最要的查询,
全栈程序员站长
2022/09/22
3.9K0
sql的嵌套查询_嵌套查询和嵌套结果的区别
mysql DATE_SUB() 函数
SELECT OrderId,DATE_SUB(OrderDate,INTERVAL 5 DAY) AS SubtractDate FROM Orders
DencyCheng
2019/03/05
1.8K0
sql的嵌套查询_sql子查询嵌套优化
最近在做各类小应用,用到了MYSQL,有时候会用到一些比较复杂的嵌套查询,在研究怎么通过SQL实现这些。 假设下面这张表(stu)描述学生的基本信息:
全栈程序员站长
2022/09/22
5.2K0
sql嵌套查询和连接查询_sql子查询嵌套规则
WHERE department_id=( SELECT department_id
全栈程序员站长
2022/11/07
4K0
sql数据库嵌套查询_select嵌套查询
where 学号 = (select 学号 from 学生 where 姓名=”xx”);
全栈程序员站长
2022/09/22
3.8K0
sql嵌套查询例子_sql的多表数据嵌套查询
查询学生上课人数超过 “Eastern Heretic” 的任意一门课的学生人数的课程信息,请使用 ANY 操作符实现多行子查询。(Lintcode刷题记录)
全栈程序员站长
2022/09/22
3.1K0
SQL嵌套查询_sql嵌套查询返回多个字段
说到嵌套查询,首先得理解嵌套查询是什么意思,简单来说就是,一个查询语句可以嵌套在另外一个查询语句的where子句中。外层的查询称为父查询(主查询),内层的查询称为子查询(从查询)。
全栈程序员站长
2022/09/22
2.9K0
SQL嵌套查询_sql差集嵌套
派生表就是一个由查询结果生成的临时表。他是在外部查询的 FROM 中定义的。派生表的存在范围只是在外部查询中,只要外部查询结束了,派生表也就不存在了。派生表一定要写在 FROM 后面范围内,用()括起来。后面跟着派生表的名称。
全栈程序员站长
2022/09/22
2.2K0
SQL嵌套查询_sql差集嵌套
sql嵌套查询效率_sql嵌套查询返回多个字段
为了查询一个字段,使用了五层嵌套循环,但是花费了约1分钟 但是5个表的数据每个最多只有10条,怎么会这么慢呢?
全栈程序员站长
2022/09/22
2.8K0
sql嵌套查询效率_sql嵌套查询返回多个字段
Gorm-嵌套查询
嵌套查询是一种在一个查询语句中嵌套另一个查询语句的方式。在Gorm中,可以使用Preload方法来实现嵌套查询。
堕落飞鸟
2023/04/24
8950
sql中的嵌套查询_sql的多表数据嵌套查询
测试的时候发现取出的是一条数据, 因为测试的时候是一天中的两条数据, 没有不同的日期,所以当日以为是正确的 ,然而第二天写入数据了,要取出数据,却发现没有数据, 返回空的行, 以为都是代码又有问题 了,找了半天都没有 ,仔细看看了存储过程中的代码,发现这样返回的数据的确是空的。
全栈程序员站长
2022/09/22
7.1K0
实验3.4 嵌套查询
掌握SELECT语句的嵌套使用,实现多表的复杂查询,进一步理解SELECT语句的高级使用方法。
week
2018/08/27
8770
SELECT 语句中的 子查询(Sub Query)
子查询(Sub Query)或者说内查询(Inner Query),也可以称作嵌套查询(Nested Query),是一种嵌套在其他 SQL 查询的 WHERE 子句中的查询。
一个会写诗的程序员
2018/08/17
3.2K0

相似问题

MySQL SELECT IN with sub查询

21

Mysql使用update和sub查询

11

MYSQL insert after sub查询with count

30

DATE_SUB命名查询MYSQL

10

MYSQL查询Slow - Sub查询和临时表

21
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档