我有一个列表(代码示例中的列表),我希望循环循环,从一个整洁的数据集中提取数据(代码示例中的目标数据)。该列表由5个元素组成,每个元素都应该在应用程序表单中表示一个页面。每个元素都是一个字符串。
)。
我怎样才能在R中处理这个问题?感谢你的帮助。我使用str_extract_all()做了一些尝试,但都失败了。
library(tidyverse)
target <- tibble(number = c("10", "10", "10"),
organization = c("TEST", "TEST", "TEST"),
name = c("X", "Y", "Z"),
info = c(12, 1, 43))
string1 <- "Application \r\n Date: 2020-09-23\r\n number: 10\r\n organization: TEST \r\nMail: x@x.com\r\n
Page 1(5)\r\n"
string2 <- "Application \r\n Date: 2020-09-23\r\n ZZZZZZZZ\r\n
Page 2(5)\r\n"
string3 <- "Application \r\n Date: 2020-09-23\r\n Start\r\n name: X\r\ninfo: 12\r\nmiss: NO\r\nname: Y\r\ninfo: 1\r\nname: Z\r\
Page 3(5)\r\n"
string4 <- "Application \r\n Date: 2020-09-23\r\n info: 43\r\n miss: YES\r\nPage 4(5)\r\n"
string5 <- "stop\r\nname: ZY\r\ninfo:45\r\nMISS:-\r\nPage 5(5)"
list <- as.list(c(string1, string2, string3, string4, string5))
发布于 2020-10-29 12:33:48
我想这就是你想要达到的目标:
str <- paste0(string1, string2, string3, string4, string5)
str_extract_all(str, regex("(?<=start).+?(?=stop)", dotall = TRUE,ignore_case = TRUE))[[1]] -> strs
str_match_all(strs, regex("name: *([^\\r\\n]+?)\\r\\n.*?info: *([^\\r\\n]+?)\\r\\n", dotall=T))[[1]][,-1] -> mat
tibble(name=mat[,1], info=mat[,2], number=as.numeric(str_extract(str, "(?<=number: )\\d+")),organization=str_extract(str, "(?<=organization: ).+(?= +\\r)") )
# A tibble: 3 x 4
name info number organization
<chr> <chr> <dbl> <chr>
1 X 12 10 TEST
2 Y 1 10 TEST
3 Z 43 10 TEST
解释:
我正在使用(?=pat)
(resp )。查找( (?<=pat
))以检查以下内容(resp )。)字符匹配pat。
str_extract_all(..., "(?<=start).+?(?=stop)")
获取介于start和stop.name: *([^\\r\\n]+?)\\r\\n.*?info: *([^\\r\\n]+?)\\r\\n
之间的文本:name: *
match name:
,后面跟着任意数量的spaces.([^\\r\\n]+?)
捕获一个或多个字符,这些字符与回车\r
和换行符\r
不同,greedy.\\r\\n.*?
量词是为了匹配尽可能少的字符数,即在正则表达式中,使+
量词非\r\n
匹配文字\r\n
和.*?
--任何数量的字符都比possible.([^\\r\\n]+?)\\r\\n
捕获的少.然后匹配一个文字\r\n
.https://stackoverflow.com/questions/64587305
复制相似问题