在R语言中,mutate
函数是dplyr
包中的一个功能强大的工具,用于在数据框(data frame)中创建或修改列。结合正则表达式(regex),你可以实现复杂的数据格式化任务。
dplyr
包中的函数,用于在数据框中添加新列或修改现有列。mutate
函数结合正则表达式可以快速地对大量数据进行格式化处理。dplyr
的语法简洁明了,易于理解和维护。假设我们有一个包含电话号码的数据框df
,我们想要将电话号码格式化为统一的样式。
library(dplyr)
# 示例数据框
df <- data.frame(
name = c("Alice", "Bob", "Charlie"),
phone = c("1234567890", "(123) 456-7890", "123-456-7890")
)
# 使用mutate和regex进行格式化
df <- df %>%
mutate(
formatted_phone = case_when(
grepl("^\\d{10}$", phone) ~ paste0 "(",
substr(phone, 1, 3), ") ",
substr(phone, 4, 6), "-",
substr(phone, 7, 10)),
grepl("^\\(\\d{3}\\) \\d{3}-\\d{4}$", phone) ~ phone,
TRUE ~ "Invalid phone number"
)
)
print(df)
mutate
函数结合正则表达式和条件逻辑(如case_when
)来创建或修改列。通过结合mutate
和正则表达式,你可以灵活地对数据进行各种复杂的格式化处理。
领取专属 10元无门槛券
手把手带您无忧上云