首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

广告行业中那些趣事系列37:广告场景中的超详细的文本分类项目实践汇总

摘要:本篇主要分享了我在绿厂广告场景中历时两年的文本分类项目模型优化实践。第一部分内容是背景介绍,包括业务介绍、项目背景及目标、技术选型、分类器组织方案以及技术选型,了解了项目背景的来龙去脉才能更好的完成项目;第二部分内容是文本分类项目模型优化实践,主要包括基于BERT文本分类模型架构、Encoder优化、句向量表示优化、分类层优化、损失函数优化以及文本分类任务转化成句子对关系任务等。通过上述优化实践,可以让我们对文本分类任务有更加深入的了解。文本分类项目应该是我完成度最高的项目之一,从0到1将NLP前沿模型应用到业务实践产生广告消耗,本身收获很大。欢迎感兴趣的小伙伴一起沟通交流,后面会继续分享从样本层面优化文本分类任务实践。

02
您找到你想要的搜索结果了吗?
是的
没有找到

广告行业中那些趣事系列19:工业场景超实用的线上推理FastBERT

摘要:本篇主要分享基于BERT实现线上推理服务的FastBERT模型。首先讲了下为啥要用FastBERT模型。因为NLP数据集中不同样本的识别难度不同,厚重的模型会存在过度计算的问题,而轻量模型则很难识别复杂样本,FastBERT模型提出了一种根据样本复杂度动态调整使用Transformer层数的样本自适应机制(sample-wise adaptive mechanism),从而可以又快又好的提供线上推理服务;然后重点分析了FastBERT模型的来龙去脉,包括FastBERT模型的引入和优化思路、模型整体结构、模型训练和推理流程以及FastBERT论文重要的实验结论,从理论到实验论证了FastBERT模型可以又快又好的提供线上推理服务的原理;最后基于作者开源的代码实战了FastBERT。对BERT线上推理服务感兴趣的小伙伴可以一起了解下FastBERT模型。

01

广告行业中那些趣事系列16:NLPer一定要知道的BERT文本分类优化策略及原理

摘要:本篇主要分享了项目实践中的BERT文本分类优化策略和原理。首先是背景介绍及优化方向,其中优化方向主要分成从数据层面优化和模型层面优化;然后通过实验的方式重点分析了分类器优化策略和原理,主要从优化BERT预训练权重和分类器模型内部优化策略优化分类器效果;最后分享了一些关于BERT优化的思考和总结,包括分类层是否应该复杂化、长文本处理、增加新知识和灾难性遗忘问题的处理。优化永无止境,本篇内容也会持续更新,把项目实践中有价值的优化技巧通过文章及时固化,也希望更多的小伙伴一起分享文本分类优化技巧。

01

广告行业中那些趣事系列14:实战线上推理服务最简单的打开方式BERT-as-service

摘要:本篇从理论到实战重点分析了bert-as-service开源项目。首先讲了下学习bert-as-service的起因,因为实际业务中需要使用bert做线上化文本推理服务,所以经过调研选择bert-as-service开源项目;然后从理论的角度详解了bert-as-service,很纯粹的输入一条文本数据,返回对应的embedding表示。模型层面对比max pooling和average pooling分析了如何获得一个有效的embedding向量;工程方面重点从解耦bert和下游网络、提供快速的预测服务、降低线上服务内存占用以及高可用的服务方式分析如何提供高效的线上服务;最后实战了bert-as-service,从搭建服务到获取文本语句的embedding,再到最后获取微调模型的预测结果。希望对想要使用bert提供线上推理服务的小伙伴有帮助。

02

2021最新文本综述:从浅层到深度学习(附PDF下载)

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后,详细讨论这些类别中的每一个类别,涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较,确定了各种评估指标的优缺点。最后,通过总结关键含义,未来的研究方向以及研究领域面临的挑战进行总结。

01

A Survey on Text Classification: From Shallow to Deep Learning-文本分类大综述

摘要。文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后,详细讨论这些类别中的每一个类别,涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较,确定了各种评估指标的优缺点。最后,通过总结关键含义,未来的研究方向以及研究领域面临的挑战进行总结。

0114

2020最新文本综述:从浅层到深度学习(附PDF下载)

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后,详细讨论这些类别中的每一个类别,涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较,确定了各种评估指标的优缺点。最后,通过总结关键含义,未来的研究方向以及研究领域面临的挑战进行总结。

05

广告行业中那些趣事系列22:当文本分类遇上了主动学习

摘要:本篇主要讲解将主动学习应用到文本分类任务。首先讲了下为啥要研究主动学习。因为标注样本是有成本的,所以我们要尽量用更少的标注样本来得到一个效果更好的模型,这是研究主动学习的原因和目的;然后详解主动学习,主要包括主动学习的定义、基本流程、查询策略的设计原则、常用的查询策略以及主动学习的评价指标等;最后讲了下将主动学习应用到文本分类实战的详细步骤,从使用不同的BERT预训练模型获取多个分类器到基于委员会的查询策略获取不确定性较大的样本,再到基于SimBERT获取语义相似度较远的样本,再到结合业务视角选择最终的样本。对于希望将主动学习应用到实际的机器学习项目的小伙伴可能会有帮助。

02
领券