我已经得到了一个文本清理任务,我假设这涉及到一些自然语言处理。John Batista Barack Obama George W.Bush Serafim Batzoglou Vijay Pande Fei Fei Li Oussama Khatib Kwame Nkrumah John Oliver
如你所见,这一段有两件特别之处1)空格“”是唯一的定界
只要我的代码是纯英语文本,所有东西都可以工作,但是如果有一些,比如说,德语字符,我的单词就会在这些字符上一分为二。如何从包含拉丁字符和非拉丁字符的文本中匹配单个单词?text.gsub(/[\w\']+/) do |word| "replacement" end
但这对于包含"oooäuuu“的文本将以”替换äreplacement“结束,即:德语字符不被视为word的一部分