我需要找到一种计算效率高的方法来识别和匹配句子中的单词。我知道有各种各样的字符串相似包,它们使用Levenshtein距离、Jaccard距离、余弦等方法,比如。但是,这对于近似两个长度大致相同的字符串的相似程度是有效的。基本上,我必须比较短字符串和长字符串。
我认为最好通过一个例子来说明,我有SPECIAL JOS VALEY CHOCK COOKIES 10X550GR的描述,我想识别它是否属于JOE'S VALLEY产品的品牌。例如,在这两个字符串之间执行Levenshteins的相似操作会产生很差的相似性。但是,如果我决定将子字符串仅使用JOS VALEY作为描述,则相似性分数