前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【文智背后的奥秘】系列篇:基于 CRF 的人名识别

【文智背后的奥秘】系列篇:基于 CRF 的人名识别

原创
作者头像
文智
修改于 2017-06-19 11:29:40
修改于 2017-06-19 11:29:40
3.9K00
代码可运行
举报
文章被收录于专栏:文智的专栏文智的专栏
运行总次数:0
代码可运行

一.命名实体识别

命名实体识别的主要任务就是从输入文本中把含有特定意义的词或者词组挑出来。命名实体根据其特点可以分为两大类,一类是可以根据构词法规则及上下文语境识别出来的,比如人名、地名、机构名;另外一类是可以穷举的垂直类实体,比如影视名,小说名,游戏名等。

命名实体识别是自然语言处理领域的基础任务,对很多应用都有十分大的作用,比如信息检索,文本摘要,信息抽取,文本聚类分类等。拿信息检索来举例,命名实体识别的结果可以在检索端生成完整索引,在query端做整体下发,这样既可以提高检索效率,又可以降低检索噪音,提高相关性。

二.人名识别

人名识别是命名实体识别中比较典型的一类问题,目前业界主要采用的方法是基于统计的。我们可以把人名识别问题看成是一个序列标注的问题,即根据观察序列预测最优隐含状态序列。

我们把标记定义为:姓用字 B,名中字用字I,名尾字用字E,其他用字O,那么下图的例子中,人名识别的问题可以转化为在已知输入文本“去看谭咏麟演出”,找到一条最大概率的标注序列,即“OOBIEOO”。

求解序列标注的模型有很多,这里我们采用了条件随机场(CRF), 主要是因为他可以任意选择特征,而不像HMM有严格的独立性假设,并且CRF是将所有特征进行全局归一化,最终得到全局最优解。

对于统计的方法来说,最主要的问题就是特征选择与语料获取的问题,下面就这两个问题展开介绍我们的做法。

三.特征选择

我们的特征选择主要分为两大类,一类是基本特征:主要有基于构词法的特征,和基于上下文语言环境的特征。

去看陈奕迅演出 陈学友

去看张学友演出 陈德华

去看刘德华演出 张奕迅

去看谭咏麟演出 刘学友

构词法特征:上面加粗字体部分就是构词法的特征,我们从已有语料中知道这四个都是人名,于是这些人名用字的交叉组合也很有可能也是人名。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
            去看邓紫棋演出

                            去看汪苏泷演出

上下文特征:还是上面的例子,黑色字体部分就可以看做是上下文特征,即在“去看^演出”这样的上下文中,知道^部分很大可能是人名。

另外一类主要的特征是泛化特征,之所以添加这类特征主要是因为我们实验发现,仅有基础特征模型的召回是不够的,需要一些泛化的东西来增加召回。

于是我们添加了一个是否为姓名常用字的特征,这个特征可以解决当该名字没有在语料中出现过的时候,也可以根据他的用字特点把新人名识别出来。

比如语料里面有张学友,也有刘德华, 但是没有张学华,于是W(S华 == E, C-2-1 == 张学) = 0, 但是 张,学 作为姓名常用字是有的,那么 W(S华 == E, C-2-1 == 11) > 0 , 这样就增加了这个人名被识别到的概率。

四.语料获取

有监督的学习方法最大的问题就是语料,如何能够获取到又多又准的语料是老大难的问题。现在大部分人都是利用已有标注的熟语料或者人工标注的方法去获取,人名日报是一份比较权威的熟语料,但是我们发现他量小,年份久远,与我们的应用场景网络语料的差距也很大。人工标注语料的成本是很大的,时间长,速度慢,数量小。于是我们想到了一种boosting的语料自动获取方法。

Boosting的方法主要思想就是先用n个基分类器,然后把他们进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。

这里我们也是采用了类似的思想,将多种人名识别的结果做投票,认为越多的方法识别到的结果则越准确,我们把这种准确的语料补充到训练语料中去,优化我们的模型。这里我们使用了旧版人名识别结果、竞品人名识别结果、机器翻译的识别结果、及我们基础模型的识别结果来做投票。这四类中,旧版结果,竞品结果及我们的结果我想象都不需要再做介绍了,下面对利用机器翻译结果做人名识别简单介绍一下。

利用机器翻译的结果做人名识别的方法是这样的,我们发现中文人名翻译成英文之后 是有明显特征的,首先是两个大写开头的单词,另外这两个单词是中文字的拼音。那么我们利用中文串的中英翻译的结果及他的拼音串做比对,在满足着两个特征的时候,就是发现其中所包含的人名了。

五、结论

我们的模型经过多次特征及语料的调整,最终在开放集合上测试,最终准确率有96%,召回率有89%。下一步针对人名识别我们还会对语料做持续扩充,并且增加更精细化的特征,让识别效果进一步提升。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
HanLP中的人名识别分析详解
分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(结尾),S(独立成词)
IT小白龙
2018/10/29
9250
HanLP中的人名识别分析详解
hanlp自然语言处理包的人名识别代码解析
HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态。过滤后,nr.txt中具有姓氏角色的单字共计97个。
IT小白龙
2019/08/02
9570
hanlp自然语言处理包的人名识别代码解析
NLP系列学习:命名实体识别(一)
在自然语言处理中,分词,词性标注,命名实体识别和句法情感分析是非常关键的分支,因为最近需要对此有一些应用,便去了解了一下特定领域目前使用的方法以及一些困难,特此进行总结。
云时之间
2018/07/24
8900
NLP系列学习:命名实体识别(一)
中文NLP笔记:14. 中文命名实体提取
  一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)
杨熹
2019/03/06
1.6K0
OCR 【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
信息抽取 (Information Extraction) 是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始数据,输出的是固定格式的信息点,即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功,循环神经网络(RNN)和卷积神经网络(CNN)也被用于信息抽取研究领域,基于深度学习的信息抽取技术也应运而生。
合合技术团队
2022/08/15
1.3K0
OCR 【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
做项目一定用得到的NLP资源【分类版】
原文链接:https://github.com/fighting41love/funNLP
流川疯
2022/09/20
2.1K0
NLP学习路线总结
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。
全栈程序员站长
2022/11/10
1.3K0
NLP学习路线总结
HMM,MEMM和CRF
概率图模型(probabilistic graphical model, PGM)指用图表示变量相关(依赖)关系的概率模型,主要分为两类:
故事尾音
2019/12/18
1.6K0
HMM,MEMM和CRF
达观数据如何打造一个中文NER系统
1 NER简介 NER(Named Entity Recognition,命名实体识别)又称专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。以下将详细介绍达观数据在文本语义理解过程中是如何构建中文NER系统
达观数据
2018/03/30
2.2K0
达观数据如何打造一个中文NER系统
NER | 命名实体识别及相关经验
每天给你送来NLP技术干货! ---- 编辑:AI算法小喵 写在前面 之前我们曾分享过几篇 NER 的相关论文,大家应该还有点印象。这次小喵看到一篇比较系统的 NER 相关文章,特别适合小白。作者从什么是命名实体讲到为什么要做命名实体,然后讲到了 NER 数据处理、建模的经验,内容非常丰富,所以这次打算跟大家分享一下。 1. 什么是NER 1.1 什么是实体 根据百度百科定义,实体[1]是指客观存在、并可相互区别的事物。实体可以是具体的人、事、物,也可以是概念。 1.2 什么是命名实体 命名实体 就是以名称
zenRRan
2022/06/29
2K0
NER | 命名实体识别及相关经验
HanLP《自然语言处理入门》笔记--1.新手上路
自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。
mantch
2020/02/18
1.4K0
基于分布式的短文本命题实体识别之----人名识别(python实现)
据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。
流川疯
2019/01/18
3.8K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
NLP(Nature Language Processing,自然语言处理)是计算机及人工智能领域的一个重要的子项目,它研究计算机如何处理、理解及应用人类语言。是人类在漫长的进化过程中形成的计算机语言复杂的符号等系统(类似C/Java的符号等系统)。以下是关于自然处理的常见定义:
苏州程序大白
2022/04/14
1.7K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
自然语言处理(NLP)学习路线总结
NLP是自然语言处理(Natural Language Processing)的缩写,它是计算机科学领域中专注于研究如何使计算机理解、生成和处理人类语言的学科。NLP涉及的技术包括但不限于分词、词性标注、句法分析、语义分析、机器翻译、情感分析、信息抽取、文本生成等。通过NLP,计算机可以处理和分析大量的文本数据,帮助人们更好地理解和应用语言信息。
机器学习AI算法工程
2024/07/04
9110
自然语言处理(NLP)学习路线总结
一文读懂命名实体识别
本文对自然语言基础技术之命名实体识别进行了相对全面的介绍,包括定义、发展历史、常见方法、以及相关数据集,最后推荐一大波 Python 实战利器,并且包括工具的用法。
用户1737318
2019/04/30
2K0
一文读懂命名实体识别
【智能】自然语言处理概述
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。 自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化 语音的自动合成与识别、机器翻译、自然语言理解、
陆勤_数据人网
2018/04/18
1.5K0
【智能】自然语言处理概述
读书笔记 | 《Python自然语言处理实战:核心技术与算法》| (1)
对词的词性标注,词性:动词、名词、形容词等,例如:我/r爱/v北京/ns天安门/ns。其中,ns代表名词,v代表动词,ns、v 都是标注,以此类推。
yiyun
2022/04/01
5400
读书笔记 | 《Python自然语言处理实战:核心技术与算法》| (1)
必看!一文了解信息抽取(IE)【命名实体识别NER】
信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
ShuYini
2020/08/17
3K0
必看!一文了解信息抽取(IE)【命名实体识别NER】
8.HanLP实现--命名实体识别
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
mantch
2020/02/21
2.8K0
【NLP】一文了解命名实体识别
1991年Rau等学者首次提出了命名实体识别任务,但命名实体(named entity,NE)作为一个明确的概念和研究对象,是在1995年11月的第六届MUC会议(MUC-6,the Sixth Message Understanding Conferences)上被提出的。当时的MUC-6和后来的MUC-7并未对什么是命名实体进行深入的讨论和定义,只是说明了需要标注的实体是“实体的唯一标识符(unique identifiers of entities)”,规定了NER评测需要识别的三大类(命名实体、时间表达式、数量表达式)、七小类实体,其中命名实体分为:人名、机构名和地名 。MUC 之后的ACE将命名实体中的机构名和地名进行了细分,增加了地理-政治实体和设施两种实体,之后又增加了交通工具和武器。CoNLL-2002、CoNLL-2003 会议上将命名实体定义为包含名称的短语,包括人名、地名、机构名、时间和数量,基本沿用了 MUC 的定义和分类,但实际的任务主要是识别人名、地名、机构名和其他命名实体 。SIGHAN Bakeoff-2006、Bakeoff-2007 评测也大多采用了这种分类。
黄博的机器学习圈子
2020/09/14
1.9K0
相关推荐
HanLP中的人名识别分析详解
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文