我们正在使用Lucene.net在我们的应用程序中进行搜索,我们以良好的方式进行搜索,现在我们需要支持多语言,所以我想问一下,我们应该使用什么策略进行索引,使用不同的分析器在不同的索引文件夹中索引不同的语言,相同的索引文件夹中有文档,以及英语和其他语言的字段(我们最终有太多的字段,因为每种语言的字段重复),或者有其他选择吗?普拉文·托卡尔( Pravin Thokal )
发布于 2014-07-16 14:19:59
理想的策略是有一个额外的语言字段,并且其他现有字段可以包含多种语言的内容。语言字段的值为多语言字段动态选择不同的语言分析器。但从本质上讲,一个字段将包含多种语言的内容,这会影响术语统计。
由于Lucene中的术语是field: term,因此对于具有常见单词的语言,术语统计将是一个问题,特别是如果在一种语言中该术语是一个频繁使用的单词,而在另一种语言中它是一个不常见的单词。最坏的情况是一种语言中的停用词和另一种语言中的重要术语。如果是这样的话,这是一种不可行的策略。但是,对于您的语言集,可能对术语统计没有影响,不同语言中的词汇表是相互排斥的。在这种情况下,您可以期望TFIDFSimilarity正常工作。如果你正在使用其他相似类,如果TFIDF正常工作,它们应该能很好地工作。
对于其他策略:
这绝对取决于a)要支持的语言数量(例如m) b)需要多语言的字段数量。(例如n)
如果m和n都较小,那么您可以使用多字段方法:
(en -english, jp - Japanese, fr - French)
field1_en, field1_jp , field1_fr,
field2_en, field2_jp , field2_fr.除非命中m*n个以上的字段超过1000+字段,否则这是一个安全的策略。当没有大的字段时,Lucene的性能就会下降。
如果没有几种语言,那么不同的索引文件夹(不同的模式)可以工作-但请注意,如果你需要返回不同语言的结果,这是许多搜索引擎关注的问题。不过Elastic Search做得很好。
https://stackoverflow.com/questions/24757035
复制相似问题