首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

中文分词器 jcseg 和 IK Analyzer

但多的是对英语,法语,意大利语等语言的支持,对中文的支持不太友好,因此需要引入中文分词器。...jcseg中文分词器 jcseg 是使用 Java 开发的一款开源的中文分词器, 使用 mmseg 算法. 分词准确率高达 98.4%, 支持中文人名识别, 同义词匹配, 停止词过滤等。...https://github.com/blueshen/ik-analyzer 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式; 在系统环境:Core2 i7 3.4G双核,...jcseg相同,现版本的IK Analyzer只兼容至lucene4版本,我修改了相关源码,使其提供了对lucene5的支持。...IK Analyzer示例代码如下: package com.olive.analyzer; import java.io.IOException; import org.apache.lucene.analysis.Analyzer

1.2K40

elasticsearch中文分词器ik-analyzer安装

前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了...,elasticsearch配套的ik-analyzer,我们一起来看看如何安装吧。   ...我们到ik-analyzer中文分词器开源项目查找与elasticsearch对应的v6.4.2版本(有的是6.0.0版https://github.com/medcl/elasticsearch-analysis-ik.../releases   复制ik-analyzer中文分词器v6.4.2的链接地址,进行安装 /usr/share/elasticsearch/bin/elasticsearch-plugin install...pretty' -d '{"analyzer":"ik_max_word","text":"ytkah博客园"}'   博客这个词是不是没有被分成“博”和“客”两个字了?

80340
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    solr6.0配置中文分词器IK Analyzer

    solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用。...一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行错误的界面。下面就来介绍一下solr6.0中中文分词器IK Analyzer的配置。...步骤1:   下载solr6.0专用的IK Analyzer的jar包和相应的配置文件。...因为IK Analyzer可以很方便的对词库近些年扩展,所以我在IK Analyzer中加入了搜狗词库的配置,可以最大限度的收录现在一些潮流的词语。  ...IK Analyzer的jar包和相应的配置文件下载地址:点击打开链接 步骤2:   解压上一个步骤所得到的压缩包,将ik-analyzer-solr5-5.x.jar这个jar包放入solr项目下的WEB-INF

    42120

    IK分词器详解

    IK分词器 什么是 IK 分词器 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词...,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题 IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart...ElasticSearch-plugin list 进入Kibana测试 先测试 ik_smart 最少划分 GET _analyze { "analyzer": "ik_smart" , "...这种自己需要的词,需要自己加到字典中 IK分词器增加自己的配置 我们找到IK的配置文件, 位于ik/config/IKAnalyzer.cfg.xml IKAnalyzer.cfg.xml IK Analyzer

    93520

    快速学习-IK分词器

    会发现分词的效果将 “测试” 这个词拆分成两个单字“测”和“试”,这是因为当前索引库使用的分词器对中文就是单字 分词。 4.2 安装IK分词器 使用IK分词器可以实现对中文分词的效果。...测试分词效果: 发送:post localhost:9200/_analyze { "text": "测试分词器,后边是测试内容:spring cloud实战", "analyzer": "ik_max_word...4.3 两种分词模式 ik分词器有两种分词模式:ik_max_word和ik_smart模式。...测试两种分词模式: 发送:post localhost:9200/_analyze { "text": "中华人民共和国人民大会堂", "analyzer": "ik_smart" } 4.4 自定义词库...重启ES,测试分词效果: 发送:post localhost:9200/_analyze { "text": "测试分词器,后边是测试内容:spring cloud实战", "analyzer":

    95720

    ES中添加 IK 分词器

    1.从github中下载IK分词器,一定要注意和ES的版本一致 https://github.com/medcl/elasticsearch-analysis-ik/releases 2 .下载之后放到...plugins 目录下面去 重启 ES 服务 测试:http://localhost:9200/blog1/_analyze { "text":"中华人民共和国MN","tokenizer": "ik_max_word...和 ik_smart 什么区别?...ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合...,适合 Term Query; ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,适合 Phrase 查询。

    1.2K30

    elasticsearch安装ik中文分词器

    中文的分词器现在大家比较推荐的就是 IK分词器,当然也有些其它的比如 smartCN、HanLP。 这里只讲如何使用IK做为中文分词。...三、安装ik中文分词器 打开github地址:https://github.com/medcl/elasticsearch-analysis-ik 打开releases页面,下载7.10.1版本 ?...: {     "analyzer":"ik_max_word",     "text":"农业银行" } 得到如下结果 {     "tokens": [         {             ...我们首先查询弗雷尔卓德字段 修改postman请求参数为: {     "analyzer":"ik_max_word",     "text":"弗雷尔卓德" } 仅仅可以得到每个字的分词结果,我们需要做的就是使分词器识别到弗雷尔卓德也是一个词语...": "ik_max_word",                 "search_analyzer": "ik_smart"             }         } }' 3.

    1.1K40
    领券