大家好,今天让我们来看看条件随机场,条件随机场是一项大内容,在中文分词里广泛应用,因为我们在之前的文章里将概率图模型和基本的形式语言知识有所了解,当我们现在再去学习条件随机场会容易比较多(在动笔写这篇文章前我也翻阅了很多的博客...而我希望在我的这几篇文章尽可能的减少单纯理论知识的复述,而是通过一些实例,比如分词,一些实操,CRF+来去亲手实现算法.这样大家理解起来可能会更好....条件随机场的文章大概有三篇:
第一篇:聊聊中文分词
第二篇:说说条件随机场的理论以及在中文分词的应用
第三篇:写写条件随机场的代码实现
而今天的这一篇将一起聊聊中文分词:
其实分词技术在国外已经是比较广泛应用了...因此分词要处理的关键问题有两个:切分歧义消解和未登录词识别
而目前主要的分词方法有三种:
一种是基于词典的分词方法,这种方法又叫做机械分词方法,这种方法时间很长,他的工作思路是按照一定的策略将待分配的词和一个充分大的词典里边的词条进行匹配...,就跟我们背诗句一样,自己脑子里有的会背,但是出题官出了一个没背过的,就懵了.因此这种基于词典的分词方法必须要需要一个高质量的词典来支撑,对于未登录的词语识别和歧义识别问题简直就是力不从心.但是速度快,