社区首页 >专栏 >Python中的jieba库

Python中的jieba库

楚客追梦

发布于 2022-11-11 12:00:33

1.1K00

代码可运行

文章被收录于专栏：网页杂谈网页杂谈

运行总次数：0

代码可运行

人们把词语组合成句子来表达意义，对于一句中文，人可以借助知识明白哪些是词，进而理解语句的含义，而计算机很难做到。确定句子中的词，是计算机理解中文的基础。jieba库是一款优秀的Python第三方中文分词库。

jieba库的安装

因为 jieba 是一个第三方库，所以使用前需要进行安装。

Windows

pip install jieba

pyCharm

打开 settings，搜索Project Interpreter，在右边的窗口选择 + 号，点击后在搜索框搜索 jieba ，点击安装即可。

中文分词

把一段中文拆分成词的过程，叫做中文分词。它是解决中文语义分析，信息检索等问题的基础。

一段/惊心动魄/的/旅程/开始/了研究/生命/的/起源

在python中进行中文分词，可以借助jieba库。

三种模式

jieba是中文分词库，库中包含一个中文词典，根据这个词典，它可以找到句子中所有可能的词语组合，并分析出一个可能性最大的拆分结果。

jieba库支持三种分词模式:

精确模式:lcut(str)

把文本精确地切分开，不存在冗余单词。适用于文本分析。

例: [‘一切’, ‘戛然而止’] 一切戛然而止

全模式:lcut(str, cut_all=True)

把文本中所有可能的词语都扫描出来。速度快，存在歧义和冗余。

例:一切戛然而止 [‘一切’, ‘戛然’, ‘戛然而止’, ‘然而’, ‘止’]

搜索引擎模式:lcut_for_search(str)

在精确模式的基础上，对长词再次进行切分。适用于搜索引擎分词。

例: [‘一切’, ‘戛然’, ‘然而’, ‘戛然而止’] 一切戛然而止

进行文本分析要采用精确分词模式，可以借助lcut()命令。

lcut()命令会返回存储分词结果的列表。

lcut()使用格式

先导入jieba库，才能使用库中的lcut()命令。

import jieba                 //导入jieba库
jieba.lcut(str)              //使用库中的命令分词

例如：

import jieba                 
words = jieba.lcut('我喜欢编程')
print(words)

输出

[‘我’,’喜欢’,’编程’]

第三方库

jieba库是一个第三方库，因为它既不是python自带的，也不是我们自己在程序中编写的，而是由其他人提供的。 python自带的库，也叫做标准库，可以直接导入并使用; 而第三方库，必须先安装，才能成功导入和使用。

多参数函数

在定义函数时，可以设置多个参数。

def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果

在调用函数时，需要传入对应的参数。

函数名(参数1, 参数2, 参数3, ...... )

定义时

def search(text, world):
    res = []
    for i in range(len(text)):
        if word in text[i]:
            res.append(i + 1)
    return res

text用来接收存储文章每一行内容的列表 word用来接收要查找的词语

调用时

rows = search(lines,x)

lines传入存储文章每一行内容的列表 x传入要查找的词语

return语句

在定义函数时，使用return语句返回函数的运行结果。

def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果

执行return语句后，函数运行结束。

def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果1       //执行这条return语句后， 函数运行结束。
    return 结果2       //不会执行这条return语句

执行return语句，函数结束执行，函数只能返回词语第一次出现的行号。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

中文分词

python

存储

搜索引擎

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

1369

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

575

60页PPT全解：DeepSeek系列论文技术要点整理

1210

Python中文分词库——jieba的用法

python

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个单词，这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库，需要通过安装来使用它。

Python学习者

2023/05/07

5350

jieba库的安装教程_利用jieba库进行txt分词

中文分词 https 网络安全搜索引擎

中文文本需要通过分词获得单个的词语； jieba是优秀的中文分词第三方库，需要额外安装； jieba库提供三种分词模式，最简单只需掌握一个函数；

全栈程序员站长

2022/11/08

1.5K0

python jieba库_Python jieba库的使用说明「建议收藏」

中文分词 java https 网络安全搜索引擎

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

全栈程序员站长

2022/08/31

3.1K0

jieba库详解「建议收藏」

中文分词搜索引擎 https 网络安全

点击windows+r,进入命令提示符输入cmd,进入界面后，输入pip install jieba。即可安装，示例如下：

全栈程序员站长

2022/11/08

1.1K0

jieba库是python内置函数库,可以直接使用_jieba库pip安装出现红字

https 网络安全搜索引擎

jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

全栈程序员站长

2022/11/08

8940

jieba库是python内置函数库,可以直接使用_jieba库pip安装出现红字

Python中常用的第三方库_vscode如何使用第三方库

python 中文分词打包搜索引擎

Python 第三方库依照安装方式灵活性和难易程度有 3 个方法，这 3 个方法是：pip 工具安装、自定义安装、文件安装。

全栈程序员站长

2022/11/04

1.9K0

Python系列~字段类型以及jieba库的使用

python 搜索引擎编程算法

真诚是为人处世的基础。无论表达关切的一方，还是被关注的一方，只有你情我愿，才能互惠互利。

小Bob来啦

2021/01/11

9360

jieba库分词代码_怎么下载jieba库

中文分词搜索引擎 https 网络安全

全栈程序员站长

2022/11/08

5820

Python帮你分析孙猴子在大闹天宫时出现了几回？

搜索引擎中文分词 python

由于该库是第三方库，并不是Python自带的模块，因此需要通过pip命令进行安装，pip安装命令如下：

灰小猿

2022/05/05

3550

ieba库实现词性标注及小说人物角色抽取

中文分词 NLP技术搜索引擎

4年人力资源从业经验，情报学硕士，主要内容涵盖python、数据分析和人力资源相关内容

冯杰宁

2019/12/11

1.4K0

python jieba分词库使用

python 搜索引擎中文分词

“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.

李小白是一只喵

2020/04/23

1.1K0

中文分词工具——jieba

搜索引擎 github git 开源

在英语中，单词就是“词”的表达，一个句子是由空格来分隔的，而在汉语中，词以字为基本单位，但是一篇文章的表达是以词来划分的，汉语句子对词构成边界方面很难界定。例如：南京市长江大桥，可以分词为：“南京市/长江/大桥”和“南京市长/江大桥”，这个是人为判断的，机器很难界定。在此介绍中文分词工具jieba，其特点为：

伊泽瑞尔

2022/05/31

1.4K0

python安装jieba库的具体步骤_无法安装lxml库

python jupyter notebook https 开源

jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

全栈程序员站长

2022/11/08

1.5K0

中文分词库 jieba

python 搜索引擎 jieba pip

使用 python 的 jieba库可以将中文句子分割成一个一个词语, 在机器学习中，可用于生成中文的词向量。我们可以使用 pip 免费安装 jieba 库。

用户6021899

2019/08/14

1.9K0

python jieba库用法

搜索引擎编程算法

搜索引擎模式。在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词。

红目香薰

2022/11/28

5340

jieba库的用法

https 网络安全 github git 开源

“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.

全栈程序员站长

2022/09/29

8540

Jieba分词

中文分词

jieba 是一个中文分词第三方库，被称为最好的 Python 中文分词库。支持三种分词模式：精确模式、全模式和搜索引擎模式，并且支持繁体分词和自定义词典。使用前需要额外安装（对应安装命令改为：pip install jieba）

MinChess

2022/12/26

8060

学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具

编程算法中文分词 NLP技术搜索引擎 python

1.Jieba 相信大多数知道NLP的人都知道什么是Jieba，但对于像我这样的新手而言，也仅限于知道而已，并没有学习过它，使用过它，打算用几天的时间来记录自己学习、使用Jieba的过程。 jieba是一款开源的中文分词工具 github ，“结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word s

JasonhavenDai

2018/04/11

1.4K0

学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具

Python Jieba库

中文分词神经网络深度学习人工智能搜索引擎

NLP（自然语言）领域现在可谓是群雄纷争，各种开源组件层出不穷，其中一支不可忽视的力量便是 jieba 分词，号称要做最好的 Python 中文分词组件。

NikoDos

2022/03/29

9450

艺术与文本的交织：基于Python的jieba和wordcloud库实现华丽词云

对象函数数据 python jieba

jieba和wordcloud是两个在自然语言处理和数据可视化领域非常常用的Python库。

Srlua

2024/05/26

4510