首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >支持MultiLingual的Lucene索引策略

支持MultiLingual的Lucene索引策略
EN

Stack Overflow用户
提问于 2014-07-15 19:28:59
回答 1查看 870关注 0票数 2

我们正在使用Lucene.net在我们的应用程序中进行搜索,我们以良好的方式进行搜索,现在我们需要支持多语言,所以我想问一下,我们应该使用什么策略进行索引,使用不同的分析器在不同的索引文件夹中索引不同的语言,相同的索引文件夹中有文档,以及英语和其他语言的字段(我们最终有太多的字段,因为每种语言的字段重复),或者有其他选择吗?普拉文·托卡尔( Pravin Thokal )

EN

回答 1

Stack Overflow用户

发布于 2014-07-16 14:19:59

理想的策略是有一个额外的语言字段,并且其他现有字段可以包含多种语言的内容。语言字段的值为多语言字段动态选择不同的语言分析器。但从本质上讲,一个字段将包含多种语言的内容,这会影响术语统计。

由于Lucene中的术语是field: term,因此对于具有常见单词的语言,术语统计将是一个问题,特别是如果在一种语言中该术语是一个频繁使用的单词,而在另一种语言中它是一个不常见的单词。最坏的情况是一种语言中的停用词和另一种语言中的重要术语。如果是这样的话,这是一种不可行的策略。但是,对于您的语言集,可能对术语统计没有影响,不同语言中的词汇表是相互排斥的。在这种情况下,您可以期望TFIDFSimilarity正常工作。如果你正在使用其他相似类,如果TFIDF正常工作,它们应该能很好地工作。

对于其他策略:

这绝对取决于a)要支持的语言数量(例如m) b)需要多语言的字段数量。(例如n)

如果m和n都较小,那么您可以使用多字段方法:

代码语言:javascript
复制
(en -english, jp - Japanese, fr - French)
field1_en, field1_jp , field1_fr,
field2_en, field2_jp , field2_fr.

除非命中m*n个以上的字段超过1000+字段,否则这是一个安全的策略。当没有大的字段时,Lucene的性能就会下降。

如果没有几种语言,那么不同的索引文件夹(不同的模式)可以工作-但请注意,如果你需要返回不同语言的结果,这是许多搜索引擎关注的问题。不过Elastic Search做得很好。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24757035

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档