首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >IK分词器安装

IK分词器安装

原创
作者头像
程序员NEO
发布2023-09-27 22:49:35
发布2023-09-27 22:49:35
6330
举报

ES 的默认分词设置的是 standard,会单字拆分进行拆分。

image-20220110170147509
image-20220110170147509
代码语言:json
复制
POST _analyze
{
  "analyzer": "standard",
  "text": "我是中国人"
}

概述

IKAnalyzer 是一个开源的,基于 Java 语言开发的轻量级的中文分词工具包。

下载 Ik 分词器

下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

image-20220110170632629
image-20220110170632629

IKAnalyzer 两种分词模式

  • ik_max_word:会将文本做 最细粒度 的拆分。
  • ik_smart:会做 最粗粒度 的拆分。

配置 IK

将下载好的 zip 上传到 linux 当中,上传到之前新建的 plugins 目录当中,上传之前首先新建一个 ik 的文件夹然后上传到新建的 ik 文件夹当中:

代码语言:shell
复制
mkdir ik
image-20220110211253719
image-20220110211253719

上传完毕之后利用 unzip 进行解压:

代码语言:shell
复制
unzip elasticsearch-analysis-ik-7.16.2.zip

之后在重启 es 与 kibana 然后在 devTools 当中进行使用 ik 的 ik_max_word 进行查询效果如下:

image-20220110211552364
image-20220110211552364
代码语言:json
复制
POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中国人"
}

扩展词与停用词

扩展词

就是不想让哪些词被分开,让他们分成一个词。

停用词

有些词在文本中出现的频率非常高。但对本文的语义产生不了多大的影响。例如英文的 a、an、the、of 等。或中文的 ”的、了、呢等”。这样的词称为停用词。

设置扩展词或停用词

进入到 config 目录创建扩展词与停用词文件。

扩展词:

代码语言:shell
复制
vim my_ext_dict.dic
image-20220110232029956
image-20220110232029956

假如如上的词它不是一个词,而我们又需要它是一个具体的词那么就可以像如上一样,添加到扩展词当中即可。

停用词:

代码语言:shell
复制
vim my_stop_dict.dic
image-20220110232155099
image-20220110232155099

将自定义的扩展词典文件添加到 IKAnalyzer.cfg.xml 配置中。

image-20220110232301702
image-20220110232301702

重启 es 与 kibana 然后进行查询结果如下:

image-20220110232713801
image-20220110232713801
代码语言:json
复制
POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是aaa啊啊啊唐"
}
image-20220110232759472
image-20220110232759472
代码语言:json
复制
POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中国人啊了呢"
}

设置 IK 分词器作为默认分词器

代码语言:json
复制
PUT /my_index
{
  "settings": {
    "index" :{
      "analysis.analyzer.default.type": "ik_max_word"
    }
  }
}

我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 下载 Ik 分词器
  • IKAnalyzer 两种分词模式
  • 配置 IK
  • 扩展词与停用词
    • 扩展词
    • 停用词
  • 设置扩展词或停用词
  • 设置 IK 分词器作为默认分词器
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档