开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

部分单词标记器与面向单词的标记器Elasticsearch

基础概念

部分单词标记器（Partial Word Tokenizers） 和 面向单词的标记器（Word-Oriented Tokenizers） 是文本处理和搜索引擎中用于将文本分解成更小的单元（称为标记或词元）的工具。这些标记器在信息检索、自然语言处理（NLP）和其他文本分析任务中非常重要。

部分单词标记器：这种标记器会考虑单词的部分形态，例如词干提取（stemming）和词形还原（lemmatization）。它们可以将不同形式的单词（如复数形式、时态变化等）归约为基本形式，从而提高搜索的准确性和召回率。
面向单词的标记器：这种标记器主要关注完整的单词，通常不会进行词干提取或词形还原。它们会将文本分割成独立的单词，并为每个单词生成标记。

Elasticsearch中的标记器

Elasticsearch 是一个流行的分布式搜索和分析引擎，广泛用于全文搜索、结构化搜索、分析等场景。Elasticsearch 提供了多种内置标记器，可以满足不同的文本处理需求。

类型

标准标记器（Standard Tokenizer）：这是 Elasticsearch 的默认标记器，适用于大多数语言。它会将文本分割成单词，并处理一些基本的标点符号和特殊字符。
简单标记器（Simple Tokenizer）：这个标记器将文本分割成单词，但不会处理标点符号和特殊字符。
空格标记器（Whitespace Tokenizer）：这个标记器根据空格将文本分割成单词。
语言标记器（Language Tokenizers）：Elasticsearch 还提供了一些针对特定语言的标记器，例如英语标记器（English Tokenizer），它们会考虑语言的特性进行处理。

应用场景

全文搜索：在搜索引擎中，标记器用于将用户输入的查询分解成标记，然后在索引中查找匹配的文档。
日志分析：在日志分析系统中，标记器用于将日志文本分解成有意义的标记，以便进行后续的分析和可视化。
情感分析：在自然语言处理任务中，标记器用于将文本分解成标记，然后进行情感分析或其他 NLP 任务。

遇到的问题及解决方法

问题1：标记器无法正确处理某些特殊字符或标点符号

原因：某些标记器可能无法正确处理特殊字符或标点符号，导致生成的标记不符合预期。

解决方法：

使用合适的标记器，例如标准标记器通常能较好地处理大多数情况。
自定义标记器，通过编写自定义的分词逻辑来处理特殊字符或标点符号。

示例代码：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "custom_analyzer": {
          "tokenizer": "standard",
          "filter": ["lowercase", "custom_filter"]
        }
      },
      "filter": {
        "custom_filter": {
          "type": "stop",
          "stopwords": "_english_"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "analyzer": "custom_analyzer"
      }
    }
  }
}

参考链接：

通过了解这些基础概念和相关配置，可以更好地利用 Elasticsearch 进行文本处理和分析。

相关搜索:PySpark :使用标记器映射单词单词标记器不能识别“this's”单词表示的one_hot与标记器 POS标记spaCy中的单个单词查找标记为错误的每个单词 pandas系列中的标记化单词使用postgresql标记短语后的单词标记包含筛选器列表中单词的单元格用PHP替换带标记链接的单词没有空格时的单词标记化如何计算多个标记化单词列表中最常用的10个单词对python中的多个单词进行标记化对字典中的单词进行标记化Python elasticsearch如何查找与单词完全匹配的文档使用标准标记器的精确匹配Elasticsearch 有没有办法使用带有单词前缀的Huggingface预训练标记器？删除<img>标记中的单词类及其内容使用字典替换标记化序列中的单词 TSQL - 查询表列以提取标记云的常用单词检测标记ngram中的相同单词并将其删除

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

第08篇-Elasticsearch中的分析和分析器应

另外ES入门，我强烈推荐这篇Elasticsearch权威搭建指南给你，非常想尽的指南手册。

00

面试之Solr&Elasticsearch[通俗易懂]

优点： 1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Push replication”。 2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。 3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。 4.Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。 5.各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点代替其进行工作。缺点：

01

Lucene&Solr&ElasticSearch-面试题

Lucene是apache下的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。官网地址：https://lucene.apache.org/

00

将Elasticsearch直接连接到Java EE应用程序

时髦的大数据来自3 V：音量，种类和速度。卷是指数据的大小，品种是指不同类型的数据，而速度是指数据处理的速度。为了处理持久性大数据，NoSQL数据库可以更快地写入和读取数据。但由于数量众多，搜索引擎需要查找没有大量计算机能力且耗费太多时间的信息。搜索引擎是一种旨在搜索信息的软件系统; 这种机制使用户获得他们想要的信息变得更加直接和清晰。

03

GitHub代码搜索服务发展历史

最近在做搜索相关的事情，也看到Github代码搜索的发展历程，不曾想其第一代搜索引擎上线居然是2008年（那一年刚上初一），或许是有时间的积淀与技术的进步才使得今天的我们在github上搜索代码可以如此方便。接下来我们一起来看看GitHub代码搜索服务发展历史。

01

Elasticsearch的工作原理是什么？

Elasticsearch是一种流行的分布式搜索引擎，可用于处理大量数据。它使用Lucene搜索引擎库作为其核心组件，可以高效地进行复杂的全文搜索、结构化搜索和分析操作。本文将详细介绍Elasticsearch的工作原理。

01

ElasticSearch权威指南学习（映射和分析）

"Set the shape to semi-transparent by calling set_trans(5)"

01

2019年常见Elasticsearch 面试题答案详细解析（下）

1.Elasticsearch 是一个分布式的 RESTful 风格的搜索和数据分析引擎。

04

ELK入门——ELK详细介绍（ELK概念和特点、Elasticsearch/Logstash/beats/kibana安装及使用介绍、插件介绍）

《Linux命令行大全》（The Linux Command Line by William E. Shotts, Jr.）中英双语版

01

2019年常见Elasticsearch 面试题答案详细解析（下）

2019年常见Elasticsearch 面试题答案详细解析（下）

01

ElasticSearch 6.x 学习笔记：7.文档

（2）term查询 term查询用于查找指定字段中包含指定分词的文件，只有当查询分词和文档中的分词精确匹配时才被检索到。

03

Elasticsearch常见面试题

ES是一种存储和管理基于文档和半结构化数据的数据库（搜索引擎）。它提供实时搜索（ES最近几个版本才提供实时搜索，以前都是准实时）和分析结构化、半结构化文档、数据和地理空间信息数据。

01

搜索引擎Elasticsearch简介实践

之前在寻找日志收集搜索解决方案时，最常看到的便是 ELK：Elasticsearch + Logstash + Kibana 方案。尽管由于它对服务器资源要求很高转而使用了 Loki，但也对它初步研究过。今天，就对其中的 Elasticsearch 深入了解一番。

00

深入搜索引擎之 Elasticsearch 必知必会（一）：开发视角

两句话了解它是什么 1. 搜索引擎。提供了数据存储、数据处理、数据查询、聚合统计的能力。 2. 创始人说：“不要求你必须是一个数据科学家才能把它用好” 前言 Elasticsearch 是一个很有意思的产品，不同岗位的人，对它的关注维度区别比较大主要可以分三个层面开发基本功能底层工作原理数据建模最佳实践运维容量规划性能优化问题诊断滚动升级搜索结果优化查全率、查准率等指标搜索与如何解决搜索的相似性问题具体场景下的调优对比传统数据库的区别主要在于传统关系型数据库事务性 Joi

02

使用Sentence Transformers和Faiss构建语义搜索引擎

介绍您是否曾经想过如何使用Sentence Transformers创建嵌入向量，并在诸如语义文本相似这样的下游任务中使用它们在本教程中，您将学习如何使用Sentence Transformers和Faiss构建一个基于向量的搜索引擎。代码地址会在本文的最后提供为什么要构建基于向量的搜索引擎？基于关键字的搜索引擎很容易使用，在大多数情况下工作得很好。你要求机器学习论文，他们会返回一堆包含精确匹配或接近变化的查询结果，就像机器学习一样。其中一些甚至可能返回包含查询的同义词或出现在类似上下文中的单词的结

02

03 . Elasticsearch概念及Search和Analyzer简单使用

分片数设置过大,7.0开始,默认主分片设置成1,解决了over-sharding的问题

03

Elasticsearch面试题精选20题[通俗易懂]

9. Elasticsearch 在部署时，对 Linux 的设置有哪些优化方法？

01

Elasticsearch分词器

一个 tokenizer（分词器）接收一个字符流，将之分割为独立的 tokens（词元，通常是独立的单词），然后输出 tokens 流。

03

「Elasticsearch + Lucene」搜索引擎的架构、倒排索引和搜索过程

许多年前，一个名叫Shay Banon的开发者，带着新婚妻子去伦敦生活，在得知妻子想从事厨师工作后，准备利用自己所学为妻子开发一个食谱搜索引擎，他开始使用Lucene的一个早期版本。但是尝试之后，他发现直接使用Lucene给没有任何开发经验的妻子而言是非常困难的，因此Shay 开始对Lucene进行封装。不久他发布了他的第一个基于Lucene的用java编写的开源项目 Compass。后来Shay找到了一份跟高性能和分布式有关的工作，然后发现这份工作对实时、分布式搜索引擎的需求尤为突出，于是他决定重写Compass，把它变为一个独立的服务并取名Elasticsearch，再到后来Elasticsearch发布了第一个公开版本，从此以后，Elasticsearch已经成为了 Github 上最活跃的开源项目之一。据说，Shay的妻子还在等着她的食谱搜索引擎，而他已经在大公司忙的“一发不可收拾”…

03

Elasticsearch “指纹”去重机制，你实践中用到了吗？

老师有个问题想请教一下，我们项目中有个需求是查询出数据集根据某个字段去重后的全部结果，用 collapse 发现很多数据都没查询到，后面发现是去重的这个字段的值太长了，ignore _above默认的是256，而这个字段的值有的有十几万甚至几十万个字符，像这种情况，还有什么比较好的查询去重方法吗？

01

初识 Elasticsearch7.x（一）

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

05

Elasticsearch(四)——Analyzer

索引页对应的倒排索引单词到索引的关联倒排索引是搜索引擎的核心，主要包含两部分单词词典（Term Dictionary）记录所有文档的单词，一般比较大，记录单词到到倒排列表的关联信息倒排列表（Posting List）

02

2021年春招Elasticsearch面试题

1、可以看到，trie 树每一层的节点数是 26^i 级别的。所以为了节省空间，我们还可以用动态链表，或者用数组来模拟动态。而空间的花费，不会超过单词数×单词长度。2、实现：对每个结点开一个字母集大小的数组，每个结点挂一个链表，使用左儿子右兄弟表示法记录这棵树；3、对于中文的字典树，每个节点的子节点用一个哈希表存储，这样就不用浪费太大的空间，而且查询速度上可以保留哈希的复杂度 O(1)。

02

全文搜索引擎 Elasticsearch 还是 Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

02

全文搜索引擎选ElasticSearch还是Solr？

而且它还是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果数据了。

01

ElasticSearch和Solr，你还傻傻分不清楚吗？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

04

Search - 一文入门ElasticSearch(节点、分片、CRUD、倒排索引、分词)

ElasticSearch是非常重要的检索工具，利用分词、索引(倒排索引)、分词从众多检索工具中脱颖而出，本章是入门基础学习篇内容。

09

【ES三周年】Elasticsearch原理深入浅出 — RESTful/ 倒排索引/ BKD树

Elasticsearch 是一个基于 Lucene 构建的分布式、RESTful 风格的搜索和数据分析引擎。它通过有限状态转换器实现了用于全文检索的倒排索引、用于存储数值数据和地理位置数据的 BKD 树，以及用于分析的列存储。

02

ElasticSearch学习笔记之原理介绍

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

02

【愚公系列】2021年11月 Elasticsearch数据库-面试题

1、可以看到，trie 树每一层的节点数是 26^i 级别的。所以为了节省空间，我们还可以用动态链表，或者用数组来模拟动态。而空间的花费，不会超过单词数×单词长度。 2、实现：对每个结点开一个字母集大小的数组，每个结点挂一个链表，使用左儿子右兄弟表示法记录这棵树； 3、对于中文的字典树，每个节点的子节点用一个哈希表存储，这样就不用浪费太大的空间，而且查询速度上可以保留哈希的复杂度 O(1)。

01

两个通宵熬出来的互联网大厂最新面试题收集整理1000道(二-ElasticSearch)，欢迎点赞收藏!!!

最近接触到很多面试相关的内容，所以就专门整理了以下，内容涵盖：Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、Redis、MySQL、Spring、Spring Boot、Spring Cloud、RabbitMQ、Kafka、Linux 等技术栈。后续会出专门的面试视频专题，欢迎关注。

04

【2022最新Java面试宝典】—— ElasticSearch面试题（31道含答案）

面试官：想了解应聘者之前公司接触的 ES 使用场景、规模，有没有做过比较大规模的索引设计、规划、调优。

02

2022 最新 Elasticsearch 面试题

面试官：想了解应聘者之前公司接触的 ES 使用场景、规模，有没有做过比较大规模的索引设计、规划、调优。

01

Springboot2.x整合ElasticSearch7.x实战（二）

还没开始的同学，建议先读一下系列攻略目录：Springboot2.x整合ElasticSearch7.x实战目录

00

ElasticSearch 查询的秘密

https://neway6655.github.io/elasticsearch/2015/09/11/elasticsearch-study-notes.html

02

Spring Boot 整合Elasticsearch入门

Spring Data Elasticsearch是Spring Data项目的子项目，提供了Elasticsearch与Spring的集成。实现了Spring Data Repository风格的Elasticsearch文档交互风格，让你轻松进行Elasticsearch客户端开发。

04

全文搜索引擎选 ElasticSearch 还是 Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

01

Hi，Java工程师：关于全文搜索引擎，这篇文章不得不看！

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

03

全文搜索引擎选ElasticSearch还是Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

01

搜索引擎选 ElasticSearch 还是 Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

04

全文搜索引擎选ElasticSearch还是Solr？

最近项目组安排了一个任务，项目中用到了全文搜索，基于全文搜索 Solr，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步，而且是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层，如果 Solr 搜索出问题，自动切换到新的搜索--ES。

00

初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》

本文作为Elastic search系列的开篇之作，简要介绍其简要历史、安装及基本概念和核心模块。

07

全文搜索引擎选 ElasticSearch 还是 Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。

02

全文搜索，ElasticSearch和Solr哪个更好用？

原文链接www.cnblogs.com/jajian/p/9801154.html 前言最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。而且它还是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层，如果 Solr 搜索出问题，自动切换到新的搜索 ES。其实可以通过 Solr 集群或者服务容错等设计来解决该问题。但是先不考虑本

02

elasticsearch-快速入门

正排索引是从文档到关键字的映射（已知文档求关键字），倒排索引是从关键字到文档的映射（已知关键字求文档）。

02

全文检索工具elasticsearch：第一章：理论知识

什么是搜索，计算机根据用户输入的关键词进行匹配，从已有的数据库中摘录出相关的记录反馈给用户。

02

Elasticsearch从入门到放弃：分词器初印象

Elasticsearch 系列回来了，先给因为这个系列关注我的同学说声抱歉，拖了这么久才回来，这个系列虽然叫「Elasticsearch 从入门到放弃」，但只有三篇就放弃还是有点过分的，所以还是回来继续更新。

02

深入解析Elasticsearch的内部数据结构和机制：行存储、列存储与倒排索引之倒排索引（三）

首先，我们需要了解传统的正向索引。在正向索引中，文档是按照它们在磁盘上的顺序进行存储的，每个文档都有一个与之关联的文档ID。如果我们要查找某个词在哪些文档中出现，就需要遍历整个文档集合，这显然是非常低效的。

01

es中的analyzer，tokenizer，filter你真的了解吗？

最近在做搜索推荐相关的需求，有一个场景中需要某一列能处理多种分词器的分词匹配，比如我输入汉字或拼音或语义相近的词都需要把匹配结果返回回来。经过一番调研，最终我们选择了elasticsearch来处理数据的索引与搜索，在配置分词器时会发现大多分词器配置中都需要配置analyzer、tokenizer、filter，那么这三个东西分别代表着什么，又有什么样的联系呢？这就是本文要重点讨论的事情。关于如何在elasticsearch中使用分词器[1]以及常用的中文分词器[2]和拼音分词器[3]是什么，该怎么样去配置这些问题不是本文要讨论的重点，链接都已经奉上，需要的自取。本文咱们就来聚焦讨论一下analyzer、tokenizer、filter之间的区别与联系。

06

ElasticSearch系列-分词器

Analysis：文本分析是把全文本转换一系列单词(term/token)的过程，也叫分词(Analyzer)。Analysis是通过Analyzer来实现的。分词就是将文档通过Analyzer分成一个一个的Term(关键词查询),每一个Term都指向包含这个Term的文档。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭