jieba库的安装教程_利用jieba库进行txt分词

全栈程序员站长

发布于 2022-11-08 06:48:24

1.5K00

代码可运行

运行总次数：0

代码可运行

大家好，又见面了，我是你们的朋友全栈君。

jieba库的安装

（cmd命令行）

pip install jieba

也可以安装国内镜像：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

（1）jieba库概述

jieba库是优秀的中文分词第三方库。

中文文本需要通过分词获得单个的词语； jieba是优秀的中文分词第三方库，需要额外安装； jieba库提供三种分词模式，最简单只需掌握一个函数；

（2）jieba库分词原理

Jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率汉字间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组

jieba分词的三种模式 精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式基础上，对长词再次切分

jieba库函数的使用

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果 >>>jieba.lcut(“中国是一个伟大的国家”)[‘中国’，‘是’，‘一个’，’伟大‘，’的‘，’国家‘]
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余。 >>>jieba.lcut(“中国是一个伟大的国家”)[‘中国’，‘国是’，‘一个’，’伟大‘，’的‘，’国家‘]
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，存在冗余。>>>jieba.lcut_for_search(“中华人民共和国是伟大的”)[‘中华’，‘华人’，’人民‘，’共和‘，’共和国‘，’中华人民共和国‘，’是‘，’伟大‘，’的‘]
jieba.add_word(w)	向分词词典增加新词w>>>jieba.add_word(“蟒蛇语言”)