Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >《Python自然语言处理》-- 1. 概述(笔记)

《Python自然语言处理》-- 1. 概述(笔记)

作者头像
爱学习的程序媛
发布于 2023-01-03 12:21:05
发布于 2023-01-03 12:21:05
7690
举报
文章被收录于专栏:学习/读书笔记学习/读书笔记

1.1 人工智能发展历程

1.2 自然语言处理

1.2.1 概述

自然语言和编程语言对比:

自然语言处理是一门融合了计算机科学、人工智能及语言学的交叉学科,研究如何通过机器学习等技术,让计算机学会处理人类语言、理解人类语言。

1.2.2 发展历程

1.2.3 处理流程

1.2.4 研究内容

1)句法语义分析对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧;

2)信息抽取:从给定文本中抽取重要的信息,如时间、地点、人物等,涉及实体识别、时间抽取、因果关系抽取等关键技术;

3)文本挖掘:包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面;

4)机器翻译把输入的源语言文本通过自动翻译获得另外一种语言的文本,可分为文本翻译、语音翻译、图形翻译等;

5)信息检索:对大规模的文档进行索引,在查询时,对表达式的检索词或者句子进行分析,在索引里面查找匹配的候选文档,通过排序机制把候选文档排序,输出得分最高的文档;

6)问答系统:对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,在知识库中查找可能的候选答案,通过排序机制找出最佳的答案;

7)对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务,涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。

1.3 机器学习算法

1.3.1 机器学习分类

1.3.2 机器学习模式总结

1.4 自然语言处理相关库

1.4.1 NumPy

NumPy 是 Python 数据分析的基本库,是在 Python 的 Numeric 数据类型的基础上,引入 Scipy 模块中针对数据对象处理的功能,用于数值数组和矩阵类型的运算、矢量处理等。

官网:http://numpy.org/

1.4.2 Matplotlib

Matplotlib 发布于2007年,用于将数据进行可视化,可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。

官网:http://matplotlib.org/

1.4.3 Pandas

Pandas 作为 Python 进行数据分析和挖掘时的数据基础平台和事实上的工业标准,功能非常强大,支持关系型数据的增、删、改、查,具有丰富的数据处理函数,支持时间序列分析功能,可以灵活处理缺失数据等。

官网:https://pandas.pydata.org/

1.4.4 SciPy

SciPy 是2001年发行的类似于 Matlab 和 Mathematica 等数学计算软件的 Python 库,用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。

官网:http://scipy.org/

1.4.5 NLTK

NLTK(Natural Language Toolkit,自然语言处理工具包)是 NLP 领域中最常使用的 Python 库,可以访问超过50个语料库和词汇资源,并有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。

官网:http://www.nltk.org/

1.4.6 SnowNLP

SnowNLP 是 Python 开发的类库,用于处理中文文本。

源码文档地址:https://github.com/isnowfy/snownlp

1.4.7 Sklearn

Sklearn(又称为Scikit-learn)是简单高效的数据挖掘和数据分析工具,建立在 NumPy、SciPy 和 Matplotlib 基础上,作为基于 Python 语言的开源工具包,是当前较为流行的机器学习框架。

官网:https://scikit-learn.org/stable/

1.5 常用语料库

语料库是指经过科学取样和加工的大规模电子文本库。

1.5.1 情感/观点/评论的语料库

1)ChnSentiCorp_htl_all 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb

2)waimai_10k 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k/intro.ipynb

3)online_shopping_10_cats 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb

4)weibo_senti_100k 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

5)simplifyweibo_4_moods 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/simplifyweibo_4_moods/intro.ipynb

6)dmsc_v2 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb

7)yf_dianping 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb

8)yf_amazon 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb

1.5.2 中文命名实体识别的语料库:dh_msra 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dh_msra/intro.ipynb

1.5.3 推荐系统的语料库

1)ez_douban 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ez_douban/intro.ipynb

2)dmsc_v2 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb

3)yf_dianping 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb

4)yf_amazon 数据集

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb

1.5.4 搜狗新闻语料库

http://www.sogou.com/labs/resource/cs.php

专业术语:

人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术学科。

监督学习(Supervised Learning):是通过训练数据集得出建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。

无监督学习(Unsupervised Learning):又称为非监督学习,是在没有训练数据集的情况下,对没有标签的数据进行分析并建立模型,发现数据本身的分布特点。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 爱学习的程序媛 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
中文自然语言处理数据集:ChineseNLPCorpus(附链接)
推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接,可以用来练手,点击阅读原文可以直达该项目链接:
数据派THU
2019/06/28
12.5K0
中文自然语言处理数据集:ChineseNLPCorpus(附链接)
自然语言处理常用资源笔记分享
有什么问题请致邮:wujunchaoIU@outlook.com,我会第一时间为你解答
UM_CC
2022/09/22
7430
《自然语言处理实战课程》---- 第一课:自然语言处理简介
大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。
流川疯
2019/04/17
2.4K0
《自然语言处理实战课程》---- 第一课:自然语言处理简介
【NLP】最全中文自然语言处理数据集、平台和工具整理
资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。
黄博的机器学习圈子
2023/01/10
3.8K0
【NLP】最全中文自然语言处理数据集、平台和工具整理
自然语言处理实战入门第一课----自然语言处理简介
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wangyaninglm/article/details/88643645
流川疯
2019/04/09
1.1K0
自然语言处理实战入门第一课----自然语言处理简介
Awesome-Chinese-NLP:中文自然语言处理相关资料
推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达:
AINLP
2019/10/10
5.7K1
Awesome-Chinese-NLP:中文自然语言处理相关资料
目前常用的自然语言处理开源项目/开发包大汇总
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
IT小白龙
2018/11/26
3.1K0
目前常用的自然语言处理开源项目/开发包大汇总
【独家】自然语言处理(NLP)入门指南
致谢 钟崇光博士参与了数据派THU于6月5日、THU数据派于6月8日发布的《循序渐进提升Kaggle竞赛模型精确度,以美国好事达保险公司理赔为例》一文的校对工作,并且给出了许多有建设性的意见,在此数据派翻译组对钟博士表达诚挚的感谢! 作者:Melanie Tosik 翻译:闵黎 校对:丁楠雅 本文长度为1100字,建议阅读3分钟 Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者
数据派THU
2018/01/29
2K0
【独家】自然语言处理(NLP)入门指南
Python自然语言处理资料库
LTP [1]- 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。 NLPIR汉语分词系统 [2]- 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。 结巴中文分词 [3]- 支持三种
Python中文社区
2018/01/31
1.6K0
Python自然语言处理资料库
HanLP《自然语言处理入门》笔记--1.新手上路
自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。
mantch
2020/02/18
1.4K0
Python 自然语言处理(NLP)工具库汇总
最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(perplexity)等(不过这些概念我其实也还理解不深...只是nltk 提供了相应方法)。 我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。 中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以了。
机器学习AI算法工程
2018/03/15
2.4K0
自然语言处理(NLP)相关
结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [python] 使用Jieba工具中文分词及文本聚类概念 jieba分词词性标记含义 Toolkits 综合NLP工具包 THULAC 中文词法分析工具包 by 清华 (C++/Java/Python) NLPIR by 中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) FudanNLP
致Great
2018/04/11
2.3K0
Python自然语言处理工具小结
作者:伏草惟存 来源:http://www.cnblogs.com/baiboy/p/nltk2.html 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。 Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(senti
小小科
2018/05/03
1.3K0
Python自然语言处理工具小结
二维卷积中文微博情感分类项目
  这里完成一个中文微博情感分类项目。这里我使用的数据集是从新浪微博收集的 12 万条数据,正负样本各一半。标签中 1 表示正面评论,0 表示负面评论。数据来源为https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_sen ti_100k/intro.ipynb。如果你有其他数据的话,也可以使用其他数据。   这一次我们使用的数据需要自己做处理,所以我们需要对句子进行分词,分词后再对每 个词根据频率来进行编号。这里我们要使用的分词工具是结巴分词,结巴分词是一个很好用 的中文分词工具,安装方式为打开命令提示符,然后输入命令:
别团等shy哥发育
2023/02/25
2360
自然语言处理数据集免费资源开放(附学习资料)
作者:Jason Brownlee 翻译:梁傅淇 本文长度为1500字,建议阅读3分钟 本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。 在你刚开始入手自然语言处理任务时,你需要数据集来练习。 最好是使用小型数据集,这样你可以快速下载,也不用花费很长的时间来调试模型。同时,使用被广泛使用和了解的标准数据集也是有所帮助的,你可以用你的结果来做比较,看一下是否有所进步。 在这篇博文中,你会找到一系列标准数据集来开始你的深度学习之旅。 总
数据派THU
2018/01/30
2.3K0
自然语言处理数据集免费资源开放(附学习资料)
初学者|一起来看看词性标注
本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波python实战利器,并且包括工具的用法。
yuquanle
2019/05/29
1K0
Python自然语言处理工具小结
来源:http://www.cnblogs.com/baiboy/p/nltk2.html
小小科
2019/08/21
1.2K0
【智能】自然语言处理概述
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。 自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化 语音的自动合成与识别、机器翻译、自然语言理解、
陆勤_数据人网
2018/04/18
1.6K0
【智能】自然语言处理概述
自然语言处理简介(1)---- 服务梳理与传统汉语分词
同步发表于:本人所属公司博客<知盛数据集团西安研发中心技术博客> https://blog.csdn.net/Insightzen_xian/article/details/81168829
流川疯
2019/01/17
1.2K0
自然语言处理概述
自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能和语言学的交叉学科,其范畴广泛,比如:语音合成、分词、词法分析、问答系统、机器翻译、情感分析等等。
老齐
2022/12/09
3.5K0
推荐阅读
相关推荐
中文自然语言处理数据集:ChineseNLPCorpus(附链接)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档