Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >广告行业中那些趣事系列31:关键词提取技术攻略以及BERT实践

广告行业中那些趣事系列31:关键词提取技术攻略以及BERT实践

作者头像
数据拾光者
发布于 2022-05-05 05:43:08
发布于 2022-05-05 05:43:08
1.1K0
举报
文章被收录于专栏:数据拾光者数据拾光者

导读:本文是“数据拾光者”专栏的第三十一篇文章,这个系列将介绍在广告行业中自然语言处理推荐系统实践。本篇从理论到实际介绍了NLP领域常见的关键词提取技术,对关键词提取技术感兴趣并希望应用到实际项目中的小伙伴能有所帮助。

封面图:《西游记》里的关键词

摘要:本篇从理论到实际介绍了NLP领域常见的关键词提取技术。首先介绍了业务背景,包括NLP四大任务介绍、关键词提取是一种NER任务、线上使用关键词提取技术场景;然后重点详解了关键词提取技术,包括关键词提取技术整体流程、分词介绍、无监督学习提取关键词、有监督学习提取关键词;最后分别从无监督学习和有监督学习源码实践了关键词提取技术。对关键词提取技术感兴趣并希望应用到实际项目中的小伙伴能有所帮助。

下面主要按照如下思维导图进行学习分享:

01

业务背景

1.1 NLP四大任务介绍

NLP领域有四大任务:分类、生成、序列标注和句子对标注。分类任务比较好理解,比如我们要做一个识别用户搜索是否为低俗的分类器,基本上万物皆可分类;生成任务也有很多,比如自动续写小说、诗歌等,之前才分享过文案生成模型等都属于生成任务;句子对标注任务主要会识别两句话是否有关系等等;而序列标注主要就是做命名体识别NER任务,就是从一段文本中抽取想要的内容,关键词提取属于一种NER任务。

1.2 关键词提取是一种NER任务

关键词提取就是从一段文本中抽取具有重要意义的词,在实际业务中应用非常广泛,这里重点在于衡量哪些是关键词,这个和下游任务强相关。下面举一些关键词提取任务的业务示例:第一类事件主体提取任务,我们想识别事件主体用于舆情监控领域和金融领域,比如从语句1“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”和语句2“产品出现问题”识别出事件主体是“公司A”。这类任务之前有个比赛《CCKS 2019 面向金融领域的事件主体抽取》;第二类实体识别任务,比如从语句“我想去星巴克喝咖啡”获取商家店铺“星巴克”;第三类事件关系抽取任务,比如从语句“九玄珠是在纵横中文网连载的一部小说,作者是龙马”识别出三元组关系["九玄珠", "连载网站", "纵横中文网"], ["九玄珠", "作者", "龙马"],第一个三元组的意义是九玄珠的连载网站是纵横中文网,第二个三元组的意义是九玄珠的作者是龙马。如果用符号表示三元组[s, p, o],相当于要抽取出“s的p是o”这样的关系,这个任务对应的比赛是《2019语言与智能技术竞赛——信息抽取》。

1.3 线上使用关键词提取技术场景

上面是关键词提取任务举例,下面对应到我们实际业务来看下哪些地方需要用到关键词提取技术:首先是通过关键词圈选人群投放广告。比如我们需要从用户搜索的query“一刀传奇是谁代言的”中获取关键词“一刀传奇”,然后根据关键词“一刀传奇”来匹配广告。如果完全根据用户搜索来匹配广告那么会存在很多长尾query无法匹配的问题,所以需要提取关键词,通过关键词匹配就可以有效解决长尾query匹配广告的问题了。现在有个传奇游戏相关的广告主购买了我们的词包“一刀传奇”,那么只要用户搜索包含“一刀传奇”关键词那么我们就会匹配对应的广告。本质是根据关键词来圈选人群投放广告;

再比如我们的文案生成模型,会根据广告主选择的行业标签和关键词来生成对应的文案,通常情况下我们希望生成的广告文案是包含关键词的,所以这里需要提取关键词作为生成条件构建基于seq2seq任务的文案生成模型。关于文案生成模型相关的介绍可以看下我之前写过的一篇文章《广告行业中那些趣事系列29:基于BERT构建文案生成模型》

还有关于搜索召回任务,搜索场景下根据query召回app广告的query-app任务中会构建DSSM双塔模型,包括query塔和app塔,其中app塔需要获取app对应的关键词作为特征来增加query-app的匹配度。关于DSSM双塔模型小伙伴也可以看下我之前写过的一篇文章《广告行业中那些趣事系列10:推荐系统中不得不说的DSSM双塔模型》。上面这些都是我们实际业务中需要使用关键词提取技术的场景,所以关键词提取这块需要重点学习。

02

详解关键词提取技术

2.1 关键词提取技术整体流程

关键词提取技术整体来看分成两步,第一步是获取文本的候选词,第二步则是对候选词进行打分。输出的关键词是候选词中得分比较高的。整体流程如下图所示:

图1 关键词提取整体流程

第一步获取文本的候选词,对于中文场景下最重要的是分词。因为中英两种语言存在非常大的差异,英文本身的最小粒度是词语,通过空格区分;而中文最小粒度是字,所以获取候选词的前提是需要进行分词,分词之后进一步获取候选词。

第二步对候选词进行打分,主要分成有监督学习和无监督学习两大类。无监督学习的优势在于不需要标注数据集,具有一定的普适性,应用范围较广。但是缺点也很明显,无监督学习的模型效果通常要弱于有监督学习任务,因为有监督学习可以利用标注的数据集获取有用的知识信息,任务也更具有针对性。有监督学习的优点和缺点则和无监督学习刚好相反,不用赘述。

2.2 分词介绍

2.2.1 传统的jieba分词和pkuseg分词

传统分词工具中比较常见的是jieba分词。作为优秀的第三方开源中文分词库,因为简单有效所以被广泛使用。对于大多数NLPer可能用的最多的分词工具就是jieba了,这里不细讲,小伙伴们只需要理解这是一款常用的中文分词工具就行了。之前参加公司比赛的时候主要任务是识别低俗文本,使用传统的文本分类模型比如TextCNN等需要进行分词,尝试了jieba分词和北大开源的pkuseg分词,下面是对比的结果:

图2 jieba和pkuseg分词对分类模型效果的影响

在低俗文本分类任务对比结果中可以发现pkuseg分词效果整体要优于jieba分词。jieba分词这一类传统分词工具的优势在于简单,普适性广,可以方便的应用到下游各类任务中。

2.2.2 基于BERT分词原理

介绍完传统的分词工具,下面重点说下如何使用BERT进行分词,毕竟我最喜欢的就是万金油的技术。BERT是一种预训练+微调的两阶段模型,因为效果好应用范围广所以被广泛应用到工业界和学术界,其中最重要的原因就是通过预训练学习到海量的语言学知识。那么我们是否可以利用预训练学习到的海量语言学知识来进行中文分词呢?答案是可以的。ACL2020的一篇论文《Perturbed Masking:Parameter-free Probing for Analyzing and Interpreting BERT》提出了一种利用Masked Language Model(MLM)来分析和解释BERT的思路,利用这种思路我们可以用BERT进行分词。

语句是由字组成的序列x=[x1,x2,…xn],那么我们可以构建nXn的相关性矩阵T。通过计算相邻两个字的相关性,然后设置阈值,就可以达到分词的目的。比如“我喜欢吃苹果”这句话我们可以构建6X6的相关性矩阵,每个字相比于其他字都会计算一个相关性值,然后设置一个阈值,当相关性低于某个阈值我们就可以进行切分。关键是如何衡量相邻两个字之间的相关性,可以使用互信息。对BERT模型来说我们主要通过MLM来衡量相邻两个字之间的相关性。下面通过一张图来说明:

图3 基于BERT的MLM计算相邻两字的相关性

现在有一句话“我喜欢吃苹果”,对这句话先将“苹”进行掩码,经过BERT之后会得到字粒度的向量,这里假如“苹”对应的向量是v1;然后对同一句话将“苹”和“果”同时进行掩码,再经过BERT之后也会得到字粒度的向量,假如“苹”对应的向量是v2;最后计算v1和v2的距离,距离越近相关性越好。通过这种方式就可以得到相邻字之间的相关性信息,然后根据相关性信息设置阈值即可进行分词。对应到论文的思路来说,这两句话的区别在于第一句话只对“苹”进行掩码操作,第二句话对“苹”和“果”同时进行掩码操作,而通常情况下一句话中掩码的字数越多那么模型预测的就越不准,因为可用的信息变少了。所以第一句话得到的“苹”对应的embedding比第二句话“苹”对应的embedding要准,而第二句话相比于第一句话多掩码了“果”字,那么就可以用v1和v2的距离来代表“苹”和“果”的相关性。最后对比下jieba和BERT分词的效果:

图4 对比jieba分词和BERT分词的效果

通过上图发现jieba分词和BERT分词的区别在于“爆率”这里,单从图中看jieba更加合理一点,不过BERT可以设置阈值进行切词,后面效果也是可期的。相比于jieba来说,BERT还有自己独特的优势:我们可以用自己业务数据来再训练BERT,使得BERT的切词效果和下游任务有一定的相关性,最终的切词效果也会更好

2.3 无监督学习提取关键词

实际工作中无监督学习提取关键词主要分成基于统计、基于主题概率和基于图的方法

2.3.1 基于统计的方法

基于统计的方法主要是利用文档中词语的统计信息来抽取关键词,计算的量化指标主要有基于词权重词位置以及词关联信息。基于统计的方法优点在于简单、易于实现,不需要标注数据集,泛化性较强。

基于统计的方法主要代表是词频逆文档频率TFIDF算法。TFIDF主要用来衡量一个词对文档的区分程度,关于TFIDF算法的原理非常简单,咱们通过一个例子来解释。一般情况下一段文本中出现次数越多的词越可能是关键词,但是对于一些常见的比如“你”、“我”、“他”之类的词可能在很多文档中都多次出现,但是这些词却不属于关键词。所以我们的目标是要找到那些在当前文档中出现次数很多,但是在大多数文档中出现次数很少的词作为当前文档的关键词。对应到TFIDF算法就包括两部分,第一部分是计算词频TF,这部分就是计算各个词在当前文档中出现的次数;第二部分是计算逆文档频率IDF,这部分是计算词在文档库中的普遍程度,作用是如果一个词在大多数文档中都出现,那么对应的IDF的值就会比较小,说明这个词大概率是通用性比较强但区分性比较差的混子词。评价一个词是当前文档中的关键词是需要在当前文档中出现的次数比较大(TF比较大),同时在大多数文档中出现次数比较少的词(IDF比较大)。对应的数学公式就是如下所示:

图5 TFIDF计算公式

关于TFIDF计算公式内部细节这里不再赘述,感兴趣的小伙伴可以自行查阅。因为TFIDF算法完全是基于数学统计的,所以不需要标注数据集,同时本身非常简单,通用性很好,可以作为简单的baseline。尤其对于现在很多复杂的业务场景很多简单的方法往往能达到很不错的线上效果。TFIDF算法的缺点主要有以下三个方面:第一,单纯以词频衡量一个词的重要性不够全面;第二,无法体现词的位置、词性和关联信息等特尔正;第三,无法反应词汇的语义信息。

2.3.2 基于概率主题的方法

上面说到TFIDF这种基于统计的方法缺点是无法反应词语的语义信息,针对这个问题主要有基于概率主题的方法。基于概率主题的方法是语义挖掘的核心,主题模型认为文档是有很多主题组成的,文档既是主题的分布也是关键词的分布。常见的基于概率主题的方法主要由LSA、LDA(潜在狄利克雷分布)算法等。下面是主题模型映射示意图:

图6 主题模型映射示意图

下面以LDA模型为例讲解基于概率主题的方法,下面是LDA的直观现象图:

图7 LDA直观现象

可以发现上图对应的文档中会分成很多主题,这些主题分别是黄色、紫色、绿色和蓝色等,而每个主题对应各自的关键词,下面是各主题和关键词对应的关系图:

图8 各主题和关键词对应的关系图

上图中左边部分是文档的主题分布概率,其中头部主要包括“genetics”、“evolution”、“disease”和“computers”四个主题,每个主题会对应一定的关键词。通过这种基于主题概率分布的方法,LDA模型有以下优点:首先,可以获得文本语义相似的关系,可以一定程度上解决多义词的问题;然后,LDA还可以去除文档中噪音的影响;其次,LDA是一种无监督的方法,可以完全自动化,不需要人工标注数据集,可以直接通过模型得到概率分布;最后,LDA和语言无关,模型的应用范围更广。

2.3.3 基于图的方法

基于图的方法理论基础在于人类语言是复杂网络,具有小世界特性和无标度特性,关键词提取就是寻找语言网络中起中心作用的词,其中有代表性的算法是TextRank。TextRank算法的基本思想来源于谷歌的PageRank算法。PageRank算法是一种网页排名算法,基本的思想:网页的重要性得分主要由链接质量和链接数量决定。通过下图说明PageRank算法:

图9 PageRank算法说明图

上图中总共有五个网页p1-p5。假如p1的得分为0.2,因为p1有两个下游链接网页p3和p4,那么会将0.2平均分到p3和p4;P2的得分为0.09,对应三个下游链接网页p3、p4、p5,那么综合计算下来p3和p4的得分就是0.1+0.03=0.13,p5的得分仅为0.03。网页链接的得分最终取决于链接的数量和质量,上游的网页链接数量越多,质量越高(这里指得分)那么该网页链接就是相对中心的网络点,重要性越高。

TextRank算法的思想虽然来源于PageRank,但也有不同之处:PageRank是有向无权图,而TextRank是有权图,这里权重是两个句子间的相似性。下面是TextRank计算公式:

图10 TextRank计算公式

总结下,基于图方法的TextRank算法具有以下特点:

  • 无需训练数据,节省了大量成本
  • 适应性强。无监督学习方法,具有很强的适应能力和扩展能力,对文本没有主题方面的限制
  • 速度快,虽然是矩阵运算,但是收敛速度快
  • 一定程度上考虑了文本结构,实际效果比TFIDF好
  • TextRank更擅长处理长文本,因为短文本词汇信息弱,构建图不理想
  • TextRank仍然更倾向于较为频繁的词作为关键词

2.4 有监督学习提取关键词

上面介绍了无监督学习提取关键词,下面介绍有监督学习提取关键词。前面也说过关键词提取属于NER任务,NER任务虽然属于一个历史悠久的NLP任务,但是自从2015年LSTM+CRF出世因为模型本身和任务匹配度非常高基本成为主流。后来BERT模型出来之后,模型结构就变成了BERT(+LSTM)+CRF结构

2.4.1 基于LSTM+CRF提取关键词

LSTM+CRF模型是2015年在论文《BidirectionalLSTM-CRF Models for Sequence Tagging》中被提出来的,模型结构如下图所示:

图11 LSTM+CRF模型结构图

模型整体分成两部分,第一部分是双向LSTM,包括两个LSTM cell,其中一个负责从左到右得到第一层表征向量L,另一个负责从右到左得到第二层表征向量R,然后将两层向量相加得到LSTM部分最终的向量V;第二部分是CRF,将向量V经过CRF层会得到最终的结果,对于序列标注任务来说基本上每个词都会有对应的输出,常用的表示序列标注结果的方法有BIO标记法和BIOES标记法两种。这里不再细讲。可以这么说在BERT出来之前序列标注任务主要是使用LSTM+CRF这种模型结构。

2.4.2 基于BERT+CRF提取关键词

后来BERT横空出世,因为BERT超强的编码能力所以后面主要用BERT+CRF来解决序列标注任务,模型结构主要是将LSTM换成了BERT,下面是模型结构图:

图12 BERT+CRF模型结构图

使用BERT+CRF模型时需要注意BERT部分和CRF部分需要使用不同的学习率,BERT部分使用较小的学习率,CRF部分使用较大的学习率。原因在于BERT进行预训练之后,模型的拟合能力很强,针对下游任务进行微调时只需要设置很小的学习率就可以充分拟合训练数据,太大反而可能不收敛。如果CRF部分使用和BERT一样的学习率可能导致CRF层训练不充分,所以CRF部分需要设置较大的学习率才能学习充分,这个也是经过实验证明的。

2.4.3 基于BERT+半指针半标注提取关键词

除了基于BERT+CRF提取关键词,苏神还分享了一种基于BERT+半指针半标注模型用于提取关键词,因为之前写过一篇文章《广告行业中那些趣事系列17:实战基于BERT和指针网络的实体抽取》,里面有详细的源码讲解,整体效果还不错,这里不再赘述,下面是模型结构图:

图13 基于BERT+半指针变标注模型结构

03

源码实践关键词提取技术

3.1 无监督学习提取关键词实践

3.1.1 基于jieba分词+tfidf实践

基于jieba分词+tfidf源码实践关键词抽取非常简单,主要是用jieba.analyse提供的extract_tags接口就行了,下面是源码及关键词提取效果:

图14 基于jieba分词+tfidf源码及提取效果

上图中需要注意的是设置提取个数topK=5,那么最终的提取结果就只包含五个关键词,整体来看提取结果还是不错的。这里需要注意的是可以根据自身业务需要调整停用词表和idf逆文档频率文件中关键词的idf值。下面是核心接口extract_tags函数的源码:

图15 extract_tags函数的源码

extract_tags函数主要完成了四个工作,分别是中文分词、计算词频TF、计算IDF和最终得到TFIDF算法排序之后的关键词集合。

3.1.2 基于BERT分词实践

BERT分词源码实践主要是基于苏剑林开源的bert4keras,原理上面已经讲解,github开源地址如下:

https://github.com/bojone/perturbed_masking/blob/master/word_segment.py

3.2 有监督学习提取关键词实践

3.2.1 基于LSTM+CRF和BERT+CRF的实践

有监督学习提取关键词实践分享一个非常不错的开源项目,作者对LSTM+CRF、BERT+CRF等都做了完整的实验,推荐小伙伴们可以关注学习下。下面是开源项目地址:https://github.com/wavewangyue/ner/tree/master

3.2.2 基于BERT+CRF提取三元组实践

分享一个苏神开源的用bert4keras提取三元组的开源项目地址:

https://github.com/bojone/bert4keras/blob/master/examples/task_relation_extraction.py

04

总结及反思

本篇从理论到实际介绍了NLP领域常见的关键词提取技术。首先介绍了业务背景,包括NLP四大任务介绍、关键词提取是一种NER任务、线上使用关键词提取技术场景;然后重点详解了关键词提取技术,包括关键词提取技术整体流程、分词介绍、无监督学习提取关键词、有监督学习提取关键词;最后分别从无监督学习和有监督学习源码实践了关键词提取技术。对关键词提取技术感兴趣并希望应用到实际项目中的小伙伴能有所帮助。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据拾光者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert
摘要:本篇从理论到实践介绍了超好用的无监督关键词提取算法Keybert。首先介绍了调研背景;然后重点介绍了什么是Keybert、KeyBERT提取关键词流程和如何通过MSS和MMR算法解决多样性问题;最后从实践的角度介绍了KeyBERT的安装、使用以及影响效果的因素。对于希望使用无监督学习算法抽取关键词的小伙伴可能有帮助。
数据拾光者
2023/03/08
2K0
广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert
Jieba中文分词 (二) ——词性标注与关键词提取
上一篇jieba中文分词(一)分词与自定义字典已介绍了jieba中文分词安装,分词原理,分词方法,自定义字典,添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提取、词性标注、及常见问题。
数据STUDIO
2021/06/24
8.4K0
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
摘要:本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景,包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战;然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题,而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。
数据拾光者
2022/05/05
8390
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
nlp 关键词提取_nlp信息抽取
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
全栈程序员站长
2022/09/29
1.1K0
nlp 关键词提取_nlp信息抽取
【NLP基础】NLP关键字提取技术之LDA算法原理与实践
人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字。仔细想想,我们人类是怎么提取关键词?我们从小就接触语言,语法,当听到或者看到一句话时,我们大脑自动会对这句话按规则分词(小学是不是做过断句的训练),还记得语文老师讲过,一句话中主语(名词),谓语(动词),宾语(名词)通常就是重点,这样我们大脑从小就会根据词性和语法对句中词进行打标签,训练分类器,随着我们接触到的语料越来越多,分类器也越来越准确(如果你是从事语言学的,那你的分类器就更准)。仅仅通过词性和语法,会在长文本中出现一个问题,因为一篇文章中会出现很多主语,谓语,宾语,不可能所有的这些词都是关键词,这样我们大脑是怎么处理的,如果我们对一篇文章的背景和主题很熟悉的话,我们会很准确得从一篇文章中提取关键词,但当我们接触一篇比较陌生的文章,我们往往很难准确提取关键词。
zenRRan
2019/07/25
3.9K1
爱奇艺NLP:BiLSTM_CRF的关键词自动抽取
https://github.com/macanv/BERT-BiLSTM-CRF-NER
机器学习AI算法工程
2019/10/28
2.4K0
爱奇艺NLP:BiLSTM_CRF的关键词自动抽取
【技术分享】BERT系列(二)-- BERT在序列标注上的应用
序列标注是NLP中一项重要的任务,它主要包括分词,词性标注,命名实体识别等子任务。通过对预训练后的BERT模型进 行finetune,并与CRF进行结合,可以很好地解决序列标注问题。上篇文章对BERT官方源码进行了介绍,本篇文章将介绍 如何通过BERT解决序列标注问题。同时本篇文章将BERT+CRF模型与其他模型进行了对比,并且对BERT在序列标注上任务上存在的问题进行了分析。
腾讯云TI平台
2019/07/02
19.9K0
【技术分享】BERT系列(二)-- BERT在序列标注上的应用
NLP关键词提取方法总结及实现
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 一、关键词提取概述 关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。 从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。 1、无监督关键词提取方法 不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进
机器学习AI算法工程
2022/03/31
10.3K0
NLP关键词提取方法总结及实现
广告行业中那些趣事系列29:基于BERT构建文案生成模型
摘要:本篇从理论到实践介绍了基于BERT构建文案生成模型。首先介绍了业务背景以及行业参考,通过构建基于标签的文案生成模型不仅可以提升广告主创建广告的效率,而且引人注目的广告文案可以有效提升广告的转化效果,同时介绍了行业竞品主要有阿里妈妈的一键生成电商营销方案系统和宇宙条的巨量创意平台;然后重点详解了BERT构建文案生成模型,包括本质属于Seq2Seq任务、BERT和Seq2Seq的结合UNILM、beam search优化、基于检索和基于生成的两种可行性方案以及基于Conditional Layer Normalization的条件文本生成原理;最后通过源码实践了BERT基于标签的文案生成模型,包括线下构建离线模型和基于Flask构建线上模型。希望对应用BERT构建文案生成模型感兴趣的小伙伴能有所帮助。
数据拾光者
2022/05/05
4850
广告行业中那些趣事系列29:基于BERT构建文案生成模型
广告行业中那些趣事系列34:风头正劲的对比学习和项目实践
摘要:本篇从理论到实践介绍了当前很火的对比学习模型。首先介绍了背景,主要是对比学习大火的原因以及如何应用到我们的实际业务中;然后从理论方面重点介绍了对比学习,包括对比学习的由来和目标、对比学习的指导原则以及构建模型的三个关键问题、对比学习分类,其中重点介绍了基于负例的对比学习方法中的SimCLR模型;最后介绍了微博将对比学习应用到自然语言处理场景和多模态场景项目实践。对于希望将对比学习应用到实际项目中的小伙伴可能有所帮助。
数据拾光者
2022/05/05
3410
广告行业中那些趣事系列34:风头正劲的对比学习和项目实践
广告行业中那些趣事系列22:当文本分类遇上了主动学习
摘要:本篇主要讲解将主动学习应用到文本分类任务。首先讲了下为啥要研究主动学习。因为标注样本是有成本的,所以我们要尽量用更少的标注样本来得到一个效果更好的模型,这是研究主动学习的原因和目的;然后详解主动学习,主要包括主动学习的定义、基本流程、查询策略的设计原则、常用的查询策略以及主动学习的评价指标等;最后讲了下将主动学习应用到文本分类实战的详细步骤,从使用不同的BERT预训练模型获取多个分类器到基于委员会的查询策略获取不确定性较大的样本,再到基于SimBERT获取语义相似度较远的样本,再到结合业务视角选择最终的样本。对于希望将主动学习应用到实际的机器学习项目的小伙伴可能会有帮助。
数据拾光者
2022/05/05
2660
广告行业中那些趣事系列22:当文本分类遇上了主动学习
广告行业中那些趣事系列43:小布语音助手知识问答比赛优化实践
摘要:本篇主要分享了参加公司小布助手知识问答的比赛优化实践记录。首先介绍了背景,通过官方提供的三个数据集介绍了赛题并抽象成NLP相关的任务;然后重点介绍了比赛过程中的优化实践记录以及效果提升情况,分别从无监督学习、有监督学习和两阶段模型来优化小布语音助手知识问答比赛。这里把自己参加比赛的各种尝试以及思考分享出来,对语音助手知识问答项目感兴趣的小伙伴可能有帮助。
数据拾光者
2022/05/05
4690
广告行业中那些趣事系列43:小布语音助手知识问答比赛优化实践
神策杯 2018高校算法大师赛(个人、top2、top6)方案总结
神策数据推荐系统是基于神策分析平台的智能推荐系统。它针对客户需求和业务特点,并基于神策分析采集的用户行为数据使用机器学习算法来进行咨询、视频、商品等进行个性化推荐,为客户提供不同场景下的智能应用,如优化产品体验,提升点击率等核心的业务指标。 神策推荐系统是一个完整的学习闭环。采集的基础数据,通过机器学习的算法模型形成应用。效果实时验证,从而指导添加数据源,算法优化反馈形成一个全流程、实时、自动、可快速迭代的推荐闭环。
致Great
2021/01/13
1.4K0
HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
mantch
2020/02/21
3.5K0
HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
中文NLP笔记:3. 关键词提取的几个方法
  TF-IDF :用于反映一个词对于某篇文档的重要性。过滤掉常见的词语,保留重要的词语
杨熹
2019/01/28
3.6K0
中文NLP笔记:3. 关键词提取的几个方法
基于依存句法分析的关键短语抽取算法实战
由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具。目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。
大数据技术与机器学习
2020/03/26
1.6K0
基于依存句法分析的关键短语抽取算法实战
技术干货 | 如何做好文本关键词提取?从三种算法说起
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。 关于文本的关键词提取方法分为有监督、半监督和无监督三种: 1 有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词
达观数据
2018/04/02
5.6K0
技术干货 | 如何做好文本关键词提取?从三种算法说起
python中的textrank4zh入门
TextRank是一种用于文本摘要和关键词提取的算法,它使用图模型来分析文本中的句子之间的关联度,并根据关联度对句子进行排序。TextRank4ZH是TextRank的一个针对中文文本的实现。在本篇文章中,我们将介绍如何使用Python中的TextRank4ZH来进行文本摘要和关键词提取的基本操作。
大盘鸡拌面
2023/10/24
6470
实战关键词提取
关键词是代表文章重要内容的一组词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。现实中大量的文本不包含关键词,这使得便捷获取文本信息更困难,所以自动提取关键词技术具有重要的价值和意义。
伊泽瑞尔
2022/05/31
8930
实战关键词提取
【 文智背后的奥秘 】系列篇:关键词智能提取
文智
2016/09/29
5K0
【 文智背后的奥秘 】系列篇:关键词智能提取
推荐阅读
相关推荐
广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档