我对如何将任何文本解析成有效的句子有疑问。My approach: I solved this using Dynamic programmnig, formula is T[i] = 1 iff T[j] = 1 and substring(j+1, i) is a word in dictionary f
我希望匹配给定字符串中的所有单词,假设该字符串是UTF-8编码的,然后对每个单词进行拼写检查。只要我的代码是纯英语文本,所有东西都可以工作,但是如果有一些,比如说,德语字符,我的单词就会在这些字符上一分为二。如何从包含拉丁字符和非拉丁字符的文本中匹配单个单词?text.gsub(/[\w\']+/) do |word| "replacement" end