前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >java版本结巴分词算法bug[通俗易懂]

java版本结巴分词算法bug[通俗易懂]

作者头像
全栈程序员站长
发布于 2022-09-13 00:14:33
发布于 2022-09-13 00:14:33
53000
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

Never to late。所以明天再做也不会晚

结巴分词的过程是: 1、根据dict.txt中的词库构建一棵trie树,这棵树的实例只有一个,采取单例模式。 2、每来一次分词构造,就顺着trie树进行分词,这将产生很多种结果,于是就生成了一个DGA,分词的有向无环图,终点是句子的左边或者右边(实际上应该分别以左边和右边为终点来做处理)。 3、利用动态规划,从句子的终点开始,到这算回去(这个在动态规划中很常见,概率dp):对DGA中查找最大的概率的分词路径,路径上的词语就是分词结果。 4、返回分词结果。

bug1:在实现单例模式的时候,作者用的如下方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public class WordDictionary{ 
   
	private static WordDictionary singleton;
	public static WordDictionary getInstance() { 
   
        if (singleton == null) { 
   
            synchronized (WordDictionary.class) { 
   
                if (singleton == null) { 
   
                    singleton = new WordDictionary();
                    return singleton;
                }
            }
        }
        return singleton;
    }
}

这种双重锁的方式,在并发场景下,是不安全的,为了避免java编译器对代码进行重排序,应该改为如下形式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
private static volatile WordDictionary singleton;
public static WordDictionary getInstance() { 
   
   if (singleton == null) { 
   
        synchronized (WordDictionary.class) { 
   
            if (singleton == null) { 
   
                singleton = new WordDictionary();
                return singleton;
            }
        }
    }
    return singleton;
}

bug2:使用trie树对待分词句子建立DGA的时候采取递归建树,使得大量DictSegment和DictSegment[]堆积,对内存消耗特别严重。使用visual vm进行测试可以发现,将该分词加入到项目中一段时间后,在内存中可以看见DictSegment和DictSegment[]的占比非常高,如果老年代不够大,很有可能会引起OutOfMemory的异常

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 Hit match(char[] charArray, int begin, int length, Hit searchHit) { 
   

        if (searchHit == null) { 
   
            // 如果hit为空,新建
            searchHit = new Hit();
            // 设置hit的起始文本位置
            searchHit.setBegin(begin);
        } else { 
   
            // 否则要将HIT状态重置
            searchHit.setUnmatch();
        }
        // 设置hit的当前处理位置
        searchHit.setEnd(begin);
        //设置起始字符为当前字典树的根节点
        Character   keyChar = new Character(charArray[begin]);
        //该keyChar对应的DictSegment
        DictSegment ds      = null;

        // 引用实例变量为本地变量,避免查询时遇到更新的同步问题
        DictSegment[]               segmentArray = this.childrenArray;
        Map<Character, DictSegment> segmentMap   = this.childrenMap;

        // STEP1 在节点中查找keyChar对应的DictSegment
        if (segmentArray != null) { 
   
            // 在数组中查找
            DictSegment keySegment = new DictSegment(keyChar);
            int         position   = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);
            if (position >= 0) { 
   
                ds = segmentArray[position];
            }

        } else if (segmentMap != null) { 
   
            // 在map中查找
            ds = (DictSegment) segmentMap.get(keyChar);
        }

        // STEP2 找到DictSegment,判断词的匹配状态,是否继续递归,还是返回结果
        if (ds != null) { 
   
            if (length > 1) { 
   
                // 词未匹配完,继续往下搜索
                return ds.match(charArray, begin + 1, length - 1, searchHit);
            } else if (length == 1) { 
   

                // 搜索最后一个char
                if (ds.nodeState == 1) { 
   
                    // 添加HIT状态为完全匹配
                    searchHit.setMatch();
                }
                if (ds.hasNextNode()) { 
   
                    // 添加HIT状态为前缀匹配
                    searchHit.setPrefix();
                    // 记录当前位置的DictSegment
                    searchHit.setMatchedDictSegment(ds);
                }
                return searchHit;
            }

        }
        // STEP3 没有找到DictSegment, 将HIT设置为不匹配
        return searchHit;
    }

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/149054.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
搞定大厂算法面试之leetcode精讲20.字符串
方法1.截取字符串,循环字符串,遇到#就截掉最后一个字符,循环完毕之后,最后比较两个去除掉#退格之后的字符串是否相等,时间复杂度O(m+n),m、n是两个字符串的长度。空间复杂度O(1)
全栈潇晨
2021/12/04
7170
ElasticSearch 如何使用 ik 进行中文分词?
大家好,我是历小冰。在《为什么 ElasticSearch 比 MySQL 更适合复杂条件搜索》 一文中,我们讲解了 ElasticSearch 如何在数据存储方面支持全文搜索和复杂条件查询,本篇文章则着重分析 ElasticSearch 在全文搜索前如何使用 ik 进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。
程序员历小冰
2021/04/12
1.6K0
ElasticSearch 如何使用 ik 进行中文分词?
java版JieBa分词源码走读
JieBa内部存储了一个文件dict.txt,比如记录了 X光线 3 n。在内部的存储trie树结构则为
爬蜥
2019/07/09
1.6K0
HashMap实现中文分词器
今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。 作者简介: Ansj分词器作者 elasticsearch-sql(elasticsearch的sql插件)作者,支持sql查询 nlp-lang自然语言工具包发起人 NLPCN(自然语言处理组织)发起人 等等... 网站:http://www.nlpcn.org/ GIT地址:https://github.com/NLPchina 具体作者详情请百度、Google 大神首先对中文分词的概念进行详细的解释
java404
2018/05/18
9320
Leetcode 题目解析:211. 添加与搜索单词 - 数据结构设计
在考察算法题时,我们往往离不开数据结构。而常见和常用的数据结构,以堆、栈、单/双链表、HashMap、各种二叉树(二叉树、平衡二叉树、搜索二叉树、红黑树)最为常见。另外,像bitmap等也比较多,尤其是需要位操作的时候。但还有一些数据结构也会占有一席之地,例如树中的Trie树(字典树),在检索类题目中也非常常见。
程序员架构进阶
2021/11/04
6380
从Trie树到双数组Trie树
Trie树 原理 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,能在常数时间O(len)内实现插入和查
JadePeng
2018/03/12
3.2K0
从Trie树到双数组Trie树
【图解算法】模板+变式——带你彻底搞懂字典树(Trie树)
接下来将对经典的字典树进行代码实现;接着做几个变体题目深入理解字典树的强大;最后回到日常生活,瞧瞧字典树怎样融入到了我们的生活之中 >_<
全栈程序员站长
2022/10/04
1.4K0
【图解算法】模板+变式——带你彻底搞懂字典树(Trie树)
jieba结巴分词原理浅析与理解 HMM应用在中文分词 及部分代码阅读
这篇博客主要阐述我们在分词任务中常用的分词库结巴jieba分词的实现原理,以及之前博客中讲到的HMM在分词中的应用,算是复习与加深理解一下HMM的知识。jieba分词作为一个十年前的分词库,更新到现在依然还是非常好用而且也很经典适合学习。
大鹅
2021/06/07
3.3K0
NLP札记4-字典分词
完全切分、正向最长匹配和逆向最长匹配这三种算法的缺点就是如何判断集合中是否含有字符串。
皮大大
2021/03/02
1.2K0
C#实现前向最大匹、字典树(分词、检索)
场景:现在有一个错词库,维护的是错词和正确词对应关系。比如:错词“我门”对应的正确词“我们”。然后在用户输入的文字进行错词校验,需要判断输入的文字是否有错词,并找出错词以便提醒用户,并且可以显示出正确词以便用户确认,如果是错词就进行替换。
SpringSun
2020/08/11
9220
C#实现前向最大匹、字典树(分词、检索)
HanLP用户自定义词典源码分析详解
l 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库
IT小白龙
2018/11/02
1.2K0
HanLP用户自定义词典源码分析详解
结巴分词原理及使用「建议收藏」
目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。
全栈程序员站长
2022/07/04
2.4K0
结巴分词原理及使用「建议收藏」
自然语言处理基础技术之分词、向量化、词性标注
段石石
2017/10/26
3.7K1
自然语言处理基础技术之分词、向量化、词性标注
比较好的中文分词方案汇总推荐
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。
IT小白龙
2019/05/13
2K0
比较好的中文分词方案汇总推荐
HanLP《自然语言处理入门》笔记--2.词典分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
mantch
2020/02/18
1.3K0
数据结构之Trie字典树
Trie 树,也叫“字典树”或“前缀树”。顾名思义,它是一个树形结构。但与二分搜索树、红黑树等不同的是,Trie 树是一种多叉树,即每个节点可以有 m 个子节点。它是一种专门处理字符串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题。
端碗吹水
2021/01/29
8560
AC算法在美团上单系统的应用
在美团,为了保证单子质量,需要对上单系统创建的每一个产品进行审核。为了提高效率,审核人员积累提炼出了一套关键词库,先基于该词库进行自动审核过滤,对于不包括这些关键词的产品信息不再需要进行人工审核。因此,如何在页面中快速的检测是否包含了这些关键词就变得非常重要。
Java架构师必看
2020/04/15
8610
数据结构与算法思想
分治法是基于多项分支递归的一种很重要的算法范式。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。
知一
2021/12/07
4370
数据结构与算法思想
挑战程序竞赛系列(64):4.7字符串上的动态规划(2)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014688145/article/details/77980283
用户1147447
2019/05/26
4470
IK分词器访问远程词典功能实现
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
神秘的寇先森
2018/09/26
2.2K0
相关推荐
搞定大厂算法面试之leetcode精讲20.字符串
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验