Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python中的jieba库

Python中的jieba库

作者头像
楚客追梦
发布于 2022-11-11 12:00:33
发布于 2022-11-11 12:00:33
1.1K00
代码可运行
举报
文章被收录于专栏:网页杂谈网页杂谈
运行总次数:0
代码可运行

人们把词语组合成句子来表达意义,对于一句中文,人可以借助知识明白哪些是词,进而理解语句的含义,而计算机很难做到。确定句子中的词,是计算机理解中文的基础。jieba库是一款优秀的Python第三方中文分词库。

jieba库的安装

因为 jieba 是一个第三方库,所以使用前需要进行安装。

Windows

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install jieba

pyCharm

打开 settings,搜索Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba ,点击安装即可。

中文分词

把一段中文拆分成词的过程,叫做中文分词。 它是解决中文语义分析,信息检索等问题的基础。

一段/惊心动魄/的/旅程/开始/了 研究/生命/的/起源

在python中进行中文分词,可以借助jieba库。

三种模式

jieba是中文分词库,库中包含一个中文词典,根据这个词典,它可以找到句子中所有可能的词语组合,并分析出一个可能性最大的拆分结果。

jieba库支持三种分词模式:

精确模式:lcut(str)

把文本精确地切分开,不存在冗余单词。 适用于文本分析

例: [‘一切’, ‘戛然而止’] 一切戛然而止

全模式:lcut(str, cut_all=True)

把文本中所有可能的词语都扫描出来。 速度快,存在歧义和冗余。

例:一切戛然而止 [‘一切’, ‘戛然’, ‘戛然而止’, ‘然而’, ‘止’]

搜索引擎模式:lcut_for_search(str)

在精确模式的基础上,对长词再次进行切分。 适用于搜索引擎分词。

例: [‘一切’, ‘戛然’, ‘然而’, ‘戛然而止’] 一切戛然而止

进行文本分析要采用精确分词模式,可以借助lcut()命令。

lcut()命令会返回存储分词结果的列表。

lcut()使用格式

先导入jieba库,才能使用库中的lcut()命令。

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba                 //导入jieba库
jieba.lcut(str)              //使用库中的命令分词

例如:

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba                 
words = jieba.lcut('我喜欢编程')
print(words)

输出

[‘我’,’喜欢’,’编程’]

第三方库

jieba库是一个第三方库,因为它既不是python自带的,也不是我们自己在程序中编写的,而是由其他人提供的。 python自带的库,也叫做标准库,可以直接导入并使用; 而第三方库,必须先安装,才能成功导入和使用。

多参数函数

在定义函数时,可以设置多个参数。

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果

在调用函数时,需要传入对应的参数。

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
函数名(参数1, 参数2, 参数3, ...... )

定义时

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def search(text, world):
    res = []
    for i in range(len(text)):
        if word in text[i]:
            res.append(i + 1)
    return res

text用来接收存储文章 每一行内容的列表 word用来接收要 查找的词语

调用时

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rows = search(lines,x)

lines传入存储文章 每一行内容的列表 x传入要查找的词语

return语句

在定义函数时,使用return语句返回函数的运行结果。

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果

执行return语句后,函数运行结束。

py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def 函数名(参数1, 参数2, 参数3, ...... ): 
    语句1
    语句2
    ......
    return 结果1       //执行这条return语句后, 函数运行结束。
    return 结果2       //不会执行这条return语句

执行return语句,函数结束执行,函数只能返回词语第一次出现的行号。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python中文分词库——jieba的用法
jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。
Python学习者
2023/05/07
5350
jieba库的安装教程_利用jieba库进行txt分词
中文文本需要通过分词获得单个的词语; jieba是优秀的中文分词第三方库,需要额外安装; jieba库提供三种分词模式,最简单只需掌握一个函数;
全栈程序员站长
2022/11/08
1.5K0
jieba库的安装教程_利用jieba库进行txt分词
python jieba库_Python jieba库的使用说明「建议收藏」
txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()
全栈程序员站长
2022/08/31
3.1K0
python jieba库_Python jieba库的使用说明「建议收藏」
jieba库详解「建议收藏」
点击windows+r,进入命令提示符输入cmd,进入界面后,输入pip install jieba。即可安装,示例如下:
全栈程序员站长
2022/11/08
1.1K0
jieba库详解「建议收藏」
jieba库是python内置函数库,可以直接使用_jieba库pip安装出现红字
jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
全栈程序员站长
2022/11/08
8940
jieba库是python内置函数库,可以直接使用_jieba库pip安装出现红字
Python中常用的第三方库_vscode如何使用第三方库
Python 第三方库依照安装方式灵活性和难易程度有 3 个方法,这 3 个方法是:pip 工具安装、自定义安装、文件安装。
全栈程序员站长
2022/11/04
1.9K0
Python系列~字段类型以及jieba库的使用
真诚是为人处世的基础。无论表达关切的一方,还是被关注的一方,只有你情我愿,才能互惠互利。
小Bob来啦
2021/01/11
9360
Python系列~字段类型以及jieba库的使用
jieba库分词代码_怎么下载jieba库
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/08
5820
jieba库分词代码_怎么下载jieba库
Python帮你分析孙猴子在大闹天宫时出现了几回?
由于该库是第三方库,并不是Python自带的模块,因此需要通过pip命令进行安装,pip安装命令如下:
灰小猿
2022/05/05
3550
Python帮你分析孙猴子在大闹天宫时出现了几回?
ieba库实现词性标注及小说人物角色抽取
4年人力资源从业经验,情报学硕士,主要内容涵盖python、数据分析和人力资源相关内容
冯杰宁
2019/12/11
1.4K0
python jieba分词库使用
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
李小白是一只喵
2020/04/23
1.1K0
python jieba分词库使用
中文分词工具——jieba
在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个是人为判断的,机器很难界定。在此介绍中文分词工具jieba,其特点为:
伊泽瑞尔
2022/05/31
1.4K0
中文分词工具——jieba
python安装jieba库的具体步骤_无法安装lxml库
jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
全栈程序员站长
2022/11/08
1.5K0
python安装jieba库的具体步骤_无法安装lxml库
中文分词库 jieba
使用 python 的 jieba库可以将中文句子分割成一个一个词语, 在机器学习中,可用于生成中文的词向量。我们可以使用 pip 免费安装 jieba 库。
用户6021899
2019/08/14
1.9K0
python jieba库用法
搜索引擎模式。在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。
红目香薰
2022/11/28
5340
jieba库的用法
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
全栈程序员站长
2022/09/29
8540
Jieba分词
jieba 是一个中文分词第三方库,被称为最好的 Python 中文分词库。支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持繁体分词和自定义词典。 使用前需要额外安装(对应安装命令改为:pip install jieba)
MinChess
2022/12/26
8060
Jieba分词
学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具
1.Jieba 相信大多数知道NLP的人都知道什么是Jieba,但对于像我这样的新手而言,也仅限于知道而已,并没有学习过它,使用过它,打算用几天的时间来记录自己学习、使用Jieba的过程。 jieba是一款开源的中文分词工具 github ,“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word s
JasonhavenDai
2018/04/11
1.4K0
学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具
Python Jieba库
NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是 jieba 分词,号称要做最好的 Python 中文分词组件。
NikoDos
2022/03/29
9450
Python Jieba库
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
jieba和wordcloud是两个在自然语言处理和数据可视化领域非常常用的Python库。
Srlua
2024/05/26
4510
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
相关推荐
Python中文分词库——jieba的用法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验