开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用嵌套为ElasticSearch配置标准停用词

ElasticSearch是一个开源的分布式搜索和分析引擎，它基于Apache Lucene构建而成。它提供了一个强大的全文搜索功能和实时数据分析能力，广泛应用于各种大规模数据的搜索和分析场景。

在ElasticSearch中，停用词是指在搜索和分析过程中被忽略的常见词语，例如"and"、"the"、"is"等。这些词语通常对搜索结果没有实质性的影响，而且会占用大量的存储空间和计算资源。因此，使用停用词可以提高搜索和分析的效率。

为了配置ElasticSearch的标准停用词，可以通过嵌套方式进行配置。具体步骤如下：

创建一个停用词文件：首先，需要创建一个文本文件，其中包含要作为停用词的词语，每个词语占一行。可以根据具体需求选择常见的停用词列表，也可以根据业务特点自定义停用词。
将停用词文件上传到ElasticSearch服务器：将停用词文件上传到ElasticSearch服务器的某个目录下，例如/path/to/stopwords.txt。
配置ElasticSearch的停用词过滤器：在ElasticSearch的配置文件中，找到analysis部分，添加一个新的停用词过滤器配置。例如：

analysis:
  filter:
    my_stopwords:
      type: stop
      stopwords_path: /path/to/stopwords.txt

在上述配置中，my_stopwords是停用词过滤器的名称，stopwords_path指定了停用词文件的路径。

将停用词过滤器应用到字段分析器：在ElasticSearch的索引映射中，为需要应用停用词过滤器的字段指定相应的分析器。例如：

{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "standard",
        "search_analyzer": "standard",
        "fields": {
          "stopwords": {
            "type": "text",
            "analyzer": "standard",
            "search_analyzer": "standard",
            "search_quote_analyzer": "standard",
            "fielddata": true,
            "copy_to": [
              "content"
            ]
          }
        }
      }
    }
  }
}

在上述映射中，content字段使用了标准分析器，而stopwords字段则使用了包含停用词过滤器的标准分析器。

通过以上配置，ElasticSearch会在索引和搜索过程中自动应用停用词过滤器，从而忽略停用词，提高搜索和分析的效率。

腾讯云提供了Elasticsearch Service（ES）产品，可以方便地部署和管理ElasticSearch集群。您可以通过腾讯云ES产品来快速搭建和配置ElasticSearch集群，并使用相关功能来优化搜索和分析的性能。

更多关于腾讯云Elasticsearch Service的信息，请访问：腾讯云Elasticsearch Service。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ElasticSearch系列-分词器

Analyzer 组成注意: 在ES中默认使用标准分词器: StandardAnalyzer 特点: 中文单字分词单词分词我是中国人 this is good man----> analyzer...容器运行 ES 安装插件目录为 /usr/share/elasticsearch/plugins # 1....解压 - [es@linux ~]$ unzip elasticsearch-analysis-ik-6.2.4.zip #先使用yum install -y unzip # 3....本地安装ik配置目录为 - es安装目录中/plugins/analysis-ik/config/IKAnalyzer.cfg.xml IK使用 IK有两种颗粒度的拆分： ik_smart: 会做最粗粒度的拆分...**停用词典**就是有些词是关键词,但是出于业务场景不想使用这些关键词被检索到，可以将这些词放入停用词典。

3363 0

ElasticSearch 内置分析器

配置内置分析器内置分析器可以直接使用，不需任何配置。然而，其中一些分析器支持可选配置来改变其行为。...例如，标准分析器可以配置为支持停止词列表： curl -XPUT 'localhost:9200/my_index?..."stopwords": "_english_" } } my_text 字段直接使用标准分析器，没有任何配置： "my_text": { "type": "text", "analyzer...有关停用词配置的更多信息，请参阅Stop Token Filter。...2.4 配置Example 在此示例中，我们将 standard 分析器配置max_token_length为5（用于演示目的），并使用预定义的英文停用词列表： curl -XPUT 'localhost

7124 0

es中的analyzer，tokenizer，filter你真的了解吗？

词干提取一般使用词干提取token filters[16]。...例如，standard分析器[20]可以配置为支持停用词列表： PUT my-index-000001 { "settings": { "analysis": { "analyzer...，但配置为删除预定义的英语停止词列表。...•my_text字段直接使用标准分析器，没有任何配置。此字段中不会删除任何停止词。由此产生的词是：[ the, old, brown, cow ]。...•my_text.english字段使用 std_english分析器，所以英语停用词会被删除掉，由此产生的词为：[ old, brown, cow ]。

7.2K6 0

学好Elasticsearch系列-分词器

Elasticsearch提供了许多内置的分词器，如标准分词器（Standard Tokenizer）、简单分词器（Simple Tokenizer）、空白分词器（Whitespace Tokenizer...规范化：normalization 在Elasticsearch中，"normalization" 是指将文本数据转化为一种标准形式的步骤。...ik自定义词库要使用 IK 分词器的自定义词库，需要对 IK 插件的配置文件进行修改。步骤如下：找到你 Elasticsearch 安装目录下的 plugins 文件夹，然后打开 ik 目录。...--用户可以在这里配置自己的扩展停止词字典--> 上述配置告诉 IK 分词器使用 my_dict.dic 作为扩展字典，但没有设置扩展的停用词字典。...在 IKAnalyzer.cfg.xml 配置文件中，你可以设置 ext_dict 和 ext_stopwords 属性为一个指向你的在线词库文件的 URL： <?

3272 0

学好Elasticsearch系列-分词器

Elasticsearch提供了许多内置的分词器，如标准分词器（Standard Tokenizer）、简单分词器（Simple Tokenizer）、空白分词器（Whitespace Tokenizer...规范化：normalization 在Elasticsearch中，"normalization" 是指将文本数据转化为一种标准形式的步骤。...ik自定义词库要使用 IK 分词器的自定义词库，需要对 IK 插件的配置文件进行修改。步骤如下：找到你 Elasticsearch 安装目录下的 plugins 文件夹，然后打开 ik 目录。...--用户可以在这里配置自己的扩展停止词字典--> 上述配置告诉 IK 分词器使用 my_dict.dic 作为扩展字典，但没有设置扩展的停用词字典。...在 IKAnalyzer.cfg.xml 配置文件中，你可以设置 ext_dict 和 ext_stopwords 属性为一个指向你的在线词库文件的 URL： <?

5252 0

好玩的ES--第二篇之高级查询，索引原理和分词器

扩展词、停用词配置 ---- 好玩的ES—第一篇之安装和基本CRUD 高级查询说明 ES中提供了一种强大的检索数据方式,这种检索方式称之为Query DSL ,Query DSL是利用Rest API...term查询得知ES中默认使用分词器为标准分词器(StandardAnalyzer),标准分词器对于英文单词分词,对于中文单字分词。...Analyzer 组成注意: 在ES中默认使用标准分词器: StandardAnalyzer 特点: 中文单字分词单词分词我是中国人 this is good man----> analyzer...容器运行 ES 安装插件目录为 /usr/share/elasticsearch/plugins # 1....停用词典就是有些词是关键词,但是出于业务场景不想使用这些关键词被检索到，可以将这些词放入停用词典。

1.3K3 0

一起学 Elasticsearch 系列-分词器

规范化：Normalization 在Elasticsearch中，"Normalization" 是指将文本数据转化为一种标准形式的步骤。...最后，我们定义了两个映射：“&”映射为“and ”，以及“è”映射为“e”。...ik自定义词库要使用 IK 分词器的自定义词库，需要对 IK 插件的配置文件进行修改。步骤如下：找到你 Elasticsearch 安装目录下的 plugins 文件夹，然后打开 ik 目录。...--用户可以在这里配置自己的扩展停止词字典--> 上述配置告诉 IK 分词器使用 my_dict.dic 作为扩展字典，但没有设置扩展的停用词字典。...在 IKAnalyzer.cfg.xml 配置文件中，你可以设置 ext_dict 和 ext_stopwords 属性为一个指向你的在线词库文件的 URL： <?

2892 0

Elasticsearch “指纹”去重机制，你实践中用到了吗？

，用于为数据生成一个唯一的标识符或指纹。...3.2 使用 Fingerprint 分析器详解为了标准化并识别这些记录，我们可以在 Elasticsearch 中定义一个使用 Fingerprint 分析器的索引。...Elasticsearch 的 Fingerprint 分析器类型，并配置了英语停用词列表。..."stopwords": "english" 是指在使用某些文本分析器（比如 Fingerprint 分析器）时，应用预定义的英语停用词列表。...停用词移除（Stop Words Removal，如果配置了停用词列表）: 如果配置了停用词列表，那么常见的停用词（如“the”, “is”, “at”等）将从文本中移除。

3041 0

Elasticsearch的工作原理是什么？

此外，Elasticsearch还会对每个分片创建多个副本，以确保数据安全性和容错能力。索引和搜索Elasticsearch使用索引来组织和管理数据。索引是一种包含文档的容器，每个文档都是字段的集合。...Elasticsearch使用基于JSON格式的API来添加、更新和删除文档。当执行搜索请求时，Elasticsearch按照指定的查询条件检索所有匹配文档的ID。...标记化通常涉及将文本分割成单词、去除停用词（例如“a”、“the”等）和转换大小写等操作。Elasticsearch使用分析器来执行标记化操作。分析器是一种可插拔的组件，可以根据需要进行自定义配置。...Elasticsearch还提供了一个内置的标准分析器，可以处理大多数情况下的文本内容。查询语言Elasticsearch使用一种称为Query DSL的查询语言来定义不同类型的搜索查询。...聚合还可以在多个字段上进行嵌套，以创建更复杂的聚合分析。总结Elasticsearch是一个高性能、可扩展的分布式搜索引擎，它使用Lucene作为核心组件，并提供丰富的搜索和分析功能。

4461 0

触类旁通Elasticsearch：分析

例如，标准英文分词器根据空格、换行和破折号等字符，将文本分割为分词。...二、分析文档有以下两种方式指定字段所使用的分析器：创建索引时，为特定的索引进行设置。在ES配置文件中，设置全局分析器。...内置分析器（1）标准分析器标准分析器（standard analyzer）是ES默认的文本分析器，包括标准分词器、标准分词过滤器、小写转换分词过滤器和停用词分词过滤器。...（8）雪球分析器雪球分析器（snowball analyzer）除了使用标准的分词器和分词过滤器，也使用了小写分词过滤器和停用词过滤器。它还使用了雪球词干器对文本进行词干提取。...，可以使用相对于配置文件的相对路径或是绝对路径。

1.4K3 1

Elasticsearch中什么是 tokenizer、analyzer、filter ?

Tokenizers(分词器）分词，就是将一个字符串，按照特定的规则打散为多个小的字符串的过程，按照专业术语说法就是就是打散为token（符号）。...这里有很多Elasticsearch内置的分析器。 ?...这里列举几个官方内置的分析器： Standard Analyzer（标准分析器）标准分析器是最常被使用的分析器，它是基于统一的Unicode 字符编码标准的文本进行分割的算法，同时它也会消除所有的标点符号...Output => [quick, brown, fox, jump, over, lazy,dog, bone] 主题:移除所有的标点符号，数字，停用词比如 the, s 而对于中文，标准分析器则是单字分割...因此，你可以根据自己的需求来配置分析器，然后来获取更好地搜索结果。

5.4K1 2

Elasticsearch分词

Elasticsearch搜索中比较重要的就是分词了，通过分词将内容拆分成不同的关键词，然后通过关键词的匹配度来打分排序选择结果，Elasticsearch默认是支持分词的，但是对中文的分词就可想而知了...内置分词分词器名称说明 Standard Analyzer 标准分词器适用于英语等 Simple Analyzer 简单分词器于非字母字符进行分词，单词会被转为小写字母 Whitespace...Analyzer 空格分词器按照空格进行切分 Stop Analyzer 简单分词器+停用词类似于简单分词器，但是增加了停用词的功能 Keyword Analyzer 关键词分词器输入文本等于输出文本...指纹分词器指纹分析仪分词器，通过创建标记进行重复检测中文分词安装下载解压安装到你的es目录/plugins文件夹下改名为ik 扩展词典和自定义词典需修改配置文件ik/config/IKAnalyzer.cfg.xml...重启elasticsearcch服务使用 IK提供了两个分词算法： ik_smart为最少切分 GET _analyze { "analyzer":"ik_smart", "text":"中国农业银行

851 0

ElasticSearch-7.10 参考手册

ES参考手册 https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html l 配置ES 1....有时需要同时使用 text 和 keyword 类型，一个用于索引搜索，一个用于聚合和排序，此时可以使用 multi-fields ，参考 multi-fields 一节，参数： analyzer 配置分析器...boost 用于为查询结果配置权重 Fielddata 该参数默认值 false，设置为true后，会将字段的值通过倒排索引加载到内存，这样会占用大量的内存，在需要聚合和排序的text类型的字段...，两个词可以合并并被索引到单独的字段中，这样可以实现精确词语的查询，前提是更大的索引为代价，如果不删除停用词这种方式效果最好，因为包含停用词不会使用附属字段，并且回退到标准短语查询 norms...search_analyzer 设置查询分析器，建议和analyzer 保持一致，如果是非短语查询会移除停用词 search_quote_analyzer 在短语查询时，不会移除停用词 similarity

5.5K1 0

Elasticsearch 基本概念

每个文档都有一个唯一的 ID，可以使用这个 ID 进行检索。一个索引可以存储多个文档。3. Type在 Elasticsearch 5.x 版本中，一个索引只能包含一个类型。...在 Elasticsearch 6.x 版本中，一个索引不能包含多个类型。在 Elasticsearch 7.x 版本中，类型已经被废弃，只能在兼容模式下使用。4....查询可以通过 RESTful API 进行发送，也可以使用 Elasticsearch 的查询 DSL 进行构建。查询 DSL 使用 JSON 格式构建，可以实现更复杂的查询功能。9....映射可以定义文本、数字、日期等类型的字段，也可以定义嵌套的对象和数组类型的字段。11. Analyzers分析器（analyzer）是 Elasticsearch 中用于处理文本的功能。...分析器可以将文本分成单词（token），并进行词干化、小写化、停用词过滤等操作。分析器可以通过映射进行配置，也可以在查询时进行动态配置。12.

3511 0

【Elasticsearch系列三】分词器介绍

jar，放入 ik 的目录下5.修改 jdbc 相关配置6.重启 es观察日志，日志中就会显示我们打印的那些东西，比如加载了什么配置，加载了什么词语，什么停用词7.在 mysql 中添加词库与停用词8...Elasticsearch的架构是面向文档的，它将所有数据存储为JSON文档，每个文档都有唯一的ID，而且处理结构化和非结构化数据非常容易。...快速的查询速度：Elasticsearch的底层使用Lucene作为搜索引擎，并在此之上做了多重优化，保证了用户对数据查询的需求。...Elasticsearch的使用场景包括：应用搜索：为网站或应用程序提供搜索功能，如电商、社交媒体等。日志记录和日志分析：收集、存储和分析服务器日志、应用日志等。...然而，Elasticsearch也存在一些潜在风险，如响应时间问题和任务恢复延迟等，需要通过优化配置和维护来降低这些风险的影响。

1090 0

【Elasticsearch系列十八】Ik 分词器

-7.12.0/plugins/ik#解压unzip elasticsearch-analysis-ik-7.12.0.zip#重启es3.ik 分词器的使用两个重要的属性:ik_max_word:...q=中华人民共和国人民大会堂4.ik 配置文件ik 配置文件地址：es/plugins/ik/config 目录IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik 原生内置的中文词库...ik 原生最重要的两个配置文件main.dic：包含了原生的中文词语，会按照这个里面的词语去分词stopword.dic：包含了英文的停用词停用词，stopword:例如: a the and at but...的使用场景包括：应用搜索：为网站或应用程序提供搜索功能，如电商、社交媒体等。...然而，Elasticsearch 也存在一些潜在风险，如响应时间问题和任务恢复延迟等，需要通过优化配置和维护来降低这些风险的影响。

961 0

白话Elasticsearch30-IK中文分词之热更新IK词库

---- 概述继续跟中华石杉老师学习ES，第30篇课程地址： https://www.roncoo.com/view/55 白话Elasticsearch28-IK中文分词器的安装和使用白话Elasticsearch29...-IK分词器配置文件+自定义词库上面两篇学习了如何安装IK以及基本的使用，当我们使用自定义词库的时候，是不是每次都得重启，而且得逐个节点依次修改，是不是有点不方便呢？...---- 配置文件 jdbc-reload.properties 配置文件 jdbc-reload.properties ?...成功 ---- 验证热加载热加载主词典我们先看下IK默认的配置文件，我们并没有修改过。 ? 使用 ik_max_word 来看下 IK的对 “盘他”的分词 ?...我们把“啥”作为停用词，添加到mysql的停用词表中 INSERT INTO `hot_stopwords` VALUES ('1', '啥'); 查看es elasticsearch.log日志

8614 1

ElasticSearch集群安装及Java客户端使用

） 6、配置ElasticSearch跨域访问修改 config/elasticsearch.yml 文件 http.cors.enabled: true http.cors.allow-origin...） fields 可以对一个字段提供多种索引模式，使用text类型做全文检索，也可使用keyword类型做聚合和排序 norms true 用于标准化文档，以便查询时计算文档的相关性。...，shopdesc为指定在哪个字段查询什么关键字（支持什么样的关键字查询取决于mapping里指定的分析器，比如单个字为索引、分词索引，之前测试的语句都是标准分词，以单个字为索引，所以查询的时候只支持一个汉字...tokenizer：分词 token filter：标准化 2 ElasticSeach内置分词器 standard分词器：（默认的）它将词汇单元转换成小写形式，并去掉停用词（a、an、the等没有实际意义的词...预处理节点：也称作 Ingest 节点，在索引数据之前可以先对数据做预处理操作，所有节点其实默认都是支持 Ingest 操作的，也可以专门将某个节点配置为 Ingest 节点。

1.8K2 0

Elasticsearch简介及安装

“GitHub使用Elasticsearch搜索20TB的数据，包括13亿文件和1300亿行代码” 维基百科：启动以Elasticsearch为基础的核心搜索架构 SoundCloud：“SoundCloud...使用Elasticsearch为1.8亿用户提供即时而精准的音乐搜索服务” 3、Es企业使用场景企业使用场景一般分为2种情况： 3.1 已经上线的系统：模块搜索功能使用数据库查询实现，但是已经出现性能问题...是使用java开发的，且本版本的es需要的jdk版本要是1.8及以上，所以安装Elasticsearch之前保证JDK1.8+安装完毕，并正确的配置好JDK环境变量，否则启动Elasticsearch失败...停用词：有些词在文本中出现的频率非常高。...这样的词称为停用词。停用词经常被过滤掉，不会被进行索引。在检索的过程中，如果用户的查询词中含有停用词，系统会自动过滤掉。停用词可以加快索引的速度，减少索引库文件的大小。

3153 0

Elasticsearch 中的停用词和自定义词库

, 才了解到停用词....关于停用词的解释所以我要做的只要把停用词删除掉即可进入Elasticsearch的根目录下(以你安装的为准, 我使用的是Docker) cd /usr/share/elasticsearch 进入ik...的配置(在es的config目录下寻找, 旧版本可能在plugins目录里) cd config/analysis-ik 查看英文停用词文件stopword.dic # cat stopword.dic...be 重启Elasticsearch 然后重新对文档索引, 之后便可以通过之前的停用词be查找到文档了自定义词库看一下当前的分词效果 POST /_analyze { "analyzer"...entry key="remote_ext_stopwords">words_location --> 我们可以在ext_dict扩展自定义词库, 多个文件使用

6461 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭