推荐github上的一个NLP代码教程:nlp-tutorial,教程中包含常见的NLP模型代码实现(基于TensorFlow和Pytorch),而且教程中的大多数NLP模型都使用少于100行代码。
NLP实战二:Pytorch实现TextRNN 、TextRNN+Attention文本分类
简介:内容相当丰富,涵盖神经网络机器翻译、问答匹配、电影评价分类、新闻分类等多个领域。这是一个教你逐步实现和适应简单的实词 NLP 任务的教程。这些资源都提供了源码,对初学者来说,极为友好,可以学会建立自己的模型。
别慌,福利来了,GitHub上一位名为“huwenxing”(胡文星)的用户上传了一个项目,里面包含了7个基于Pytorch的文本分类模型,并提供了一个样本数据集,这对新手党来说,简直不要太方便!
我从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。
每天给你送来NLP技术干货! ---- 写在前面 本文主要介绍了两种文本分类模型:BERT文本分类基础模型,及基于Bert和TextCNN的魔改模型。在作者实际的有关文本分类的工作中取得了F1值超越Bert基础模型近4%的效果。 1. Baseline:Bert文本分类器 Bert模型是Google在2018年10月发布的语言模型,一经问世就横扫NLP领域11项任务的最优结果,可谓风头一时无二。 有关于Bert中transformer的模型细节,我们在此就不赘述了。感兴趣的朋友,可以看看《The Illus
AI 科技评论按:人工智能技术目前越来越火爆,近日,2018 年图灵奖得主揭晓,获奖的三位科学家是分别是 Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton。相信在人工智能领域,没有人不知道这三位,众所周知,他们被称为「深度学习三巨头」。
最近花周末两天时间利用pytorch实现了TextCNN进行了中文文本分类,在此进行记录。 相关代码详见:https://github.com/PingHGao/textCNN_pytorch
nlp-tutorial是一个使用Pytorch/TensorFlow,学习自然语言处理的教程。大多数模型的代码行数少于100行。
本文是本人所写的NLP基础任务——文本分类的【深入TextCNN】系列文章之一。【深入TextCNN】系列文章是结合PyTorch对TextCNN从理论到实战的详细教程。
因此将有五个主要的功能模块:sl(序列标注)、tc(文本分类)、sr(句子关系)、tg(文本生成)、sp(结构分析)和其他功能模块如we(词向量)。
文本分类或者说文本打标是一个非常非常非常常见的任务,尤其是做内容的公司,当然做商品的公司也是需要的,如何能够快速准确的实现一个文本多分类任务,今天就把这个项目分享一下。
本文主要介绍一篇将CNN应用到NLP领域的一篇论文 Convolutional Neural Networks for Sentence Classification,然后给出 PyTorch 实现
文本分类作为人工智能领域的一个重要分支,其价值和影响力已经深入到我们日常生活的各个角落。在这个数据驱动的时代,文本分类不仅是机器学习和深度学习技术的集中展示,更是智能化应用的基础。
摘要:本篇主要分享腾讯开源的文本分类项目NeuralClassifier。虽然实际项目中使用BERT进行文本分类,但是在不同的场景下我们可能还需要使用其他的文本分类算法,比如TextCNN、RCNN等等。通过NeuralClassifier开源项目我们可以方便快捷的使用这些模型。本篇并不会重点剖析某个算法,而是从整体的角度使用NeuralClassifier开源工程,更多的是以算法库的方式根据不同的业务场景为我们灵活的提供文本分类算法。
前一篇文章分享了生成对抗网络(GAN),详细讲解什么是生成对抗网络,及常用算法(CGAN、DCGAN、infoGAN、WGAN)、发展历程、预备知识。
BERT最近太火,蹭个热点,整理一下相关的资源,包括Paper, 代码和文章解读。
2020年的下半年开始了,很多大学都已经放了暑假,开始准备去找实习工作了,很多2021年毕业的同学也开始了秋招的进程,而对于一些社招人员,疫情结束,年终奖拿完,也开始准备跳槽。最近一段时间,无论是实习生还是正式员工,我也面试了很多同学,今天想跟大家聊聊求职过程中技术面试大家所存在的问题。
深度学习正在给自然语言处理带来巨大的变革,例如机器翻译,情感分析,问答系统等落地实践。深度学习对NLP的影响主要有如下几点:
Dive-Into-Deep-Learning-PyTorch-PDF这个项目对中文版《动手学深度学习》中的代码进行整理,并参考一些优秀的GitHub项目给出基于PyTorch的实现方法。为了方便阅读,本项目给出全书PyTorch版的PDF版本。欢迎大家Download,Star,Fork。除了原书内容外,我还为每一章增加了本章附录,用于对该章节中用到的函数以及数学计算加以详细说明,除此之外还增加了语义分割网络(U-Net)的实现,是目前全网最完整的版本。
比赛介绍 这是一个文本多分类的问题:目标是 “参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型”。通俗点讲就是:当用户在知乎上提问题时,程序要能够根据问题的内容
Fasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。
李沐等人的开源中文书《动手学深度学习》现在有 PyTorch 版实现了。不论是原书中的示例代码,还是实战项目,原来的 MXNet 都可以无缝转化到 PyTorch 代码。项目作者在保持原书内容基本不变的情况下,将 MXNet 代码都转换为了 PyTorch,想要学习 DL 和 PyTorch 的小伙伴们可以试试啊。
NeuralNLP是腾讯广告(Tencent Marketing Solution,TMS)(https://e.qq.com/)数据算法团队搭建的一个基于PyTorch的深度学习NLP公共实验平台,主要涵盖文本分类、序列标注、语义匹配、BERT微调和文本生成等,目前已经广泛应用于腾讯广告业务文本相关的需求场景中,如广告定向、相关性计算、LookAlike、动态创意、点击率/转化率预估等。 NeuralClassifier是NeuralNLP的一个子项目,是一款基于PyTorch开发的深度学习文本分类工具
上面一篇文章中,我介绍了一篇利用RNN via Attention解决有毒评论文本分类问题。然而,在工业生产中,RNN、LSTM、GRU等循环神经网络不能并行计算,尽管研究者提出了一些其他的模型,如SRU等。CNN尽管效果在某些时候会稍逊RNN以及RNN的变体,但是CNN在速度方面却有着无可比拟的效果,且由于它的可并行性广被工业界喜爱。
我们知道,CNN在图像领域应用的比较好了,那么CNN能不能用于文本分析呢?答案是肯定的。在2014年,Yoon Kim在其论文“Convolutional Neural Networks for Sentence Classification”就提出了使用CNN对文本进行分类。这应该是最早将CNN用于文本分类中的文章了。所以,我们称将用于文本分析的CNN网络叫做textCNN。
上一篇文章介绍了基本的基于注意力机制方法对序列特征的处理,这篇主要介绍一下基本的基于卷积神经网络方法对序列特征的处理,也就是TextCNN方法。序列特征的介绍,背景以及应用可以参考上一篇的详细介绍,这里简单回顾一下定义,用户在使用APP或网站的时候,用户会产生一些针对物品的行为,比如点击感兴趣的物品,收藏或购买物品等,而这些行为往往代表着用户对这些物品是感兴趣的,而将这些交互过的物品放在时间轴来看,就形成了用户感兴趣的物品序列,我们要处理的数据对象类似如图 1 所示具有时序关系的序列特征,这里拿用户感兴趣的物品序列为例作为处理对象。
RNN (Recurrent Neural Network) focused on Text 专门解决文本分类问题的RNN网络
随着 Shopee 业务的扩张,消费者对客服咨询的需求不断攀升。Shopee Chatbot 团队致力于基于人工智能技术打造 Chatbot 与人工客服 Agent 的有机结合,通过 Chatbot 来解决用户日常的咨询诉求,给用户提供更好的体验,缓解和减轻人工客服的压力,也帮助公司节省大量人力资源成本。目前,我们已经在多个市场上线了 Chatbot。如上图所示,用户可以通过 Shopee App 中的 Mepage 体验我们的 Chatbot 产品。
(2)词转成向量(word2vec,Glove,bert,nn.embedding)
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
这个保姆级不是形容这份指南有多详细,而是形容这个指南会伴随你们一起成长哟(其实就是太多了写不完)。之后的更新都会定期发文并汇总在Github上,欢迎催更:
2014年的一篇文章,开创cnn用到文本分类的先河。Convolutional Neural Networks for Sentence Classification
textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。
摘要:本篇主要分享从理论到实战知识蒸馏。首先讲了下为什么要学习知识蒸馏。一切源于业务需求,BERT这种大而重的模型虽然效果好应用范围广,但是很难满足线上推理的速度要求,所以需要进行模型加速。通常主流的模型加速方法主要包括剪枝、因式分解、权值共享、量化和知识蒸馏等;然后重点讲解了知识蒸馏,主要包括知识蒸馏的作用和原理、知识蒸馏的流程以及知识蒸馏的效果等;最后理论联系实战,讲解了实际业务中主要把BERT作为老师模型去教作为学生模型的TextCNN来学习知识,从而使TextCNN不仅达到了媲美BERT的分类效果,而且还能很好的满足线上推理速度的要求。对知识蒸馏感兴趣的小伙伴可以一起沟通交流。
awesome-bert:BERT相关资源大列表 by Jiakui 本项目包含BERT 相关论文和 github 项目。 项目地址: https://github.com/Jiakui/awesom
论文地址:Convolutional Neural Networks for Sentence Classification
本文来自社区作者 @mantch ,查看TA的更多动态,可在文末扫描社区名片进入。
“女孩儿的心思男孩你别猜,你猜来猜去也猜不明白。不知道她为什么掉眼泪,也不知她为什么笑开怀……”
摘要:本篇从理论上到实践介绍了BERT知识蒸馏发展进程。首先介绍了BERT类模型提升线上性能的方法以及知识蒸馏为什么有效;然后重点介绍了BERT蒸馏的主要发展进程,主要包括微调阶段蒸馏最后一层、微调阶段蒸馏中间层、预训练阶段蒸馏、预训练+微调两阶段蒸馏以及其他蒸馏方案;最后介绍了我们实际项目中BERT蒸馏实践。对BERT知识蒸馏感兴趣并希望应用到实际业务中的小伙伴可能有帮助。
深度学习模型在计算机视觉与语音识别方面取得了卓越的成就,在 NLP 领域也是可以的。将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似 n-gram 的关键信息),从而能够更好地捕捉局部相关性。
对于文本分类问题,常见的方法无非就是抽取文本的特征,比如使用doc2evc或者LDA模型将文本转换成一个固定维度的特征向量,然后在基于抽取的特征训练一个分类器。 然而研究证明,TextCnn在文本分类问题上有着更加卓越的表现。从直观上理解,TextCNN通过一维卷积来获取句子中n-gram的特征表示。TextCNN对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快,一般是首选;对长文本领域,TextCNN主要靠filter窗口抽取特征,在长距离建模方面能力受限,且对语序不敏感。
摘要:本篇主要总结了小X语音助手安全服务模型的优化实践。首先介绍了小X语音助手安全服务模型背景以及任务类型;然后重点介绍了在优化任务中的实践,包括线上算法服务介绍、第一阶段样本优化实践和第二阶段通过知识蒸馏的方式优化模型,最后分享了后续的优化思路。对于希望快速得到效果好性能快的文本分类模型的小伙伴可能有所帮助。
首先很幸运拿到本次大赛的亚军,同时非常感谢大佬队友的带飞,同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
上次课程我们介绍了基于情感词典的情感分析方法,本节课我们尝试基于机器学习的情感分析方法,以电影中文文本情感分析为例,最常见的就是对电影评论数据进行情感分类,如积极情感(positive)、消极情感(negative)等。而目前可以用来处理这类问题的机器学习模型有很多,如朴素贝叶斯、逻辑回归、SVM、CNN等等,本文采用深度学习TextCNN模型进行电影评论数据的情感分类,下面看其具体实现的过程。
卷积神经网络(Convolutional Neural Networks,CNN)的提出使得深度学习在计算机视觉领域得到了飞速的发展,大量基于CNN的算法模型被提出,同时深度学习算法在多个视觉领域实现了突破。最初在文本领域,主要使用的深度学习模型是RNN,LSTM等,既然CNN在图像领域得到广泛的应用,能否将CNN算法应用于文本分类中呢?Kim在2014的文章《Convolutional Neural Networks for Sentence Classification》成功将CNN模型应用在文本分类中。
随着对话系统和推荐系统的快速发展,新方向——对话推荐系统(Conversational Recommender System,简称CRS)也开始了蓬勃发展,其关注于如何通过基于自然语言的对话来获得用户的意图和偏好,以实现精准推荐。但是现有的CRS相关数据集和模型在建模场景、最终目标和使用技术等方面存在一定差异,使得研究者们很难对这些模型进行统一的评测对比。对于科研新手来说,更是难以在这些模型和数据集中抉择并快速搭建CRS系统。
领取专属 10元无门槛券
手把手带您无忧上云