我正在尝试创建一个正则表达式,该正则表达式匹配重复模式或两个或两个以上字符(不包括单个重复字符)三次或三次以上。
(.)\1{3,}将匹配单个重复字符,例如匹配aaaa,但不匹配ababab或abcde
(.+)\1{3,}将与重复模式相匹配,例如aaa、ababab、ab ab ab,而不是abcde
我只想匹配ababab,ab ab ab等,但不想匹配aaaa或abcde
我该如何解决这个问题?
我正在为两个不同的查询尝试用' '查找和替换单词
查找和替换具有相同字符重复3次以上连续的单词
或
查找并替换具有的单词,任何特殊字符连续重复3次或多次。
查看以下查询:
re.findall(r'([a-zA-Z])\1{3,}', 'I doono if HELLO && AA+-AA should be here but hellllooooo or Whyyy should definitely be. So should ++, x+=-y --- ')
它给出了应该在['hellllo
我对tweet的文本预处理有问题。
我想用以下方式替换字符串中至少重复三次的字符:
so -----> so
loooooove -----> love
sweeeeeet -----> sweet
我所做的如下:
text = "this is so soooo sweeeeeeet. I loooove it!"
re.sub(r'([a-z])\1+', r'\1',text)
和
re.sub(r'(\w)(\1{3,})',r'\1',text)
引用自
两者都返回了如下相
我需要重印符合特定规则的诗行。我一直在使用的规则是,如果一行中有一个单词出现多次,则重新打印该行。
例如,I have to go out with Jane将不会打印。然而,当单词to在该行中重复时,I have to go out to the movies with Jane将打印出来。
Rules = ['']
Yip = open('poem.txt', 'r')
Lines = Yip.read().split('\n')
n = 1
for r in Rules:
i = 1
print("\nMatch
我需要匹配任何组合的字符,以任何顺序,但不是重复的字符。集合是"m,s,b,r,e,l,f,t“,例如
msb - valid
mbs - valid
m - valid
mmft - not valid (duplicate m)
mxel - not valid (x is not in set)
我使用这个测试器
这是最近的,但不会捕获所有的订单组合。
^(?:[m]{1})|(?:[n]{1})$
例如,nm将不会被捕获。
任何帮助都很感谢,谢谢。
数据是熊猫系列:我正在使用df.B=df.A.str.extract(r'')创建B列,其中提取的单词df:
A
HI my lines are
so super WHERE1 my car
car go anywhere
next line like this
HI my lines are
so super WHERE2 my car
one WHERE HI like me
以上数据是测试数据,HI单词之间有时有40行空格。我需要从HI开始的前两条线开始,这是第一条。从第一行,得到WHERE1和WHERE2单词
到现在为止我的王国:
^(HI(.*\n){2}) #to