前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分词器ngram,edge-ngram,shingle分析

分词器ngram,edge-ngram,shingle分析

原创
作者头像
周银辉
发布2024-09-23 18:03:21
1230
发布2024-09-23 18:03:21
举报
文章被收录于专栏:ElasticSearch

Ngram,edge-ngram,shingle多元分词器的几个注意点:

1、多元分词器Ngram,edge-ngram为单词字符级分词器,通常在索引时间指定,在搜索时间不指定。

2、1-grams,bigrams,trigrams分别指代1元,2元,3元分词器。

3、min_gram,max_gram指定字符的的最小最大分隔范围,output_unigrams指定不输出1元。

4、shingle指字多元分词以单词级分词器。

代码语言:txt
复制
DELETE myind_ngram
PUT myind_ngram
{
  "settings": {
    "analysis": {
      "analyzer": {
        "myngram":{
         "tokenizer":"mytokenizer"
        }
      },
      "tokenizer": {
        "mytokenizer":{
          "type":"edge_ngram",
          "min_gram":1,
          "max_gram":2
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content":{
        "type":"text",
        "analyzer": "myngram"
      }
    }
  }
}


POST myind_ngram/_analyze
{
  "text":"Quick Foxes.",
  "analyzer":"myngram"
}

POST _analyze
{
  "text":"hello world",
  "tokenizer":{"type":"ngram","min_gram":1,"max_gram":2}
}

POST _analyze
{
  "text":"Quick Foxes.",
  "tokenizer":{"type":"edge_ngram","min_gram":1,"max_gram":10}
}

POST _analyze
{
  "text":"Quick Foxes Are You Ok",
  "tokenizer":"standard",
  "filter":{"type":"shingle","output_unigrams":false}
}

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档