
standard 分词器,仅适用于英文。
GET /_analyze
{
"analyzer": "standard",
"text": "中华人民共和国人民大会堂"
}我们想要的效果是什么:中华人民共和国,人民大会堂,英文却拆成一个一个的词
IK 分词器就是目前最流行的 Elasticsearch 中文分词器
官网:https://github.com/medcl/elasticsearch-analysis-ik
下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
根据 es 版本下载相应版本包。 我用的是 v7.12.0 的版本,注意版本对齐
#进入插件目录
/usr/local/elasticsearch-7.12.0/plugins
#创建ik目录
mkdir ik
#从mac传文件到服务器
scp /Users/qinyingjie/Downloads/elasticsearch-analysis-ik-7.12.0.zip root@47.119.160.231:/usr/local/elasticsearch-7.12.0/plugins/ik
#解压
unzip elasticsearch-analysis-ik-7.12.0.zip
#重启es两个重要的属性:
存储时,使用 ik_max_word,搜索时,使用 ik_smart
PUT /my_index
{
"mappings": {
"properties": {
"text": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_smart"
}
}
}
}搜索
GET /my_index/_search?q=中华人民共和国人民大会堂ik 配置文件地址:es/plugins/ik/config 目录
ik 原生最重要的两个配置文件
停用词,stopword:
custom/ext_stopword.dic,已经有了常用的中文停用词,可以补充自己的停用词,然后重启 es
热更新的方案:
用第二种方案,第一种,ik git 社区官方都不建议采用,觉得不太稳定
Elasticsearch 的使用场景包括:
Elasticsearch 的引入主要是为了应对大数据环境下的海量数据检索和实时分析需求,它通过分布式架构和高效的索引机制,提供了快速的搜索和分析能力。然而,Elasticsearch 也存在一些潜在风险,如响应时间问题和任务恢复延迟等,需要通过优化配置和维护来降低这些风险的影响。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。