首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SFFAI分享 | 罗玲:From Word Representation to BERT【附PPT,视频】

    在自然语言处理任务中,词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。Word2Vec等传统的词向量预训练模型都是静态且上下文无关的,不能很好的处理同一个词不同语义。Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》提出了BERT模型解决了这样的问题。作为刷新GLUE榜单11项NLP任务(句子关系判断,分类任务,序列标注任务等)成绩的预训练模型,BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点,并且通过masked语言模型实现了真正的深度双向模型。同时BERT不仅能更好的处理sentence-level的任务,在token-level的语言任务上也达到了不错的效果。BERT不仅带来了研究的热潮,它对NLP任务的影响也在持续发酵中。

    02

    NLP学习------HanLP使用实验

    在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型语料库中。实验证明思路是对的,最后结果是只有60几个词不在词向量里,其中大部分为名词,还有些为因语音翻译问题所造成的出错连词,所有这些词也只出现一次,这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤,因为此后模型会用到词向量,如果未出现词过多,会影响词向量效果。

    00

    将句子表示为向量(上):无监督句子表示学习(sentence embedding)

    word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实,万物皆可embedding,Embedding is All You Need ^_^)。近年来(2014-2018),许多研究者在研究如何进行句子表示学习,从而获得质量较高的句子向量(sentence embedding)。事实上,sentence embedding在信息检索,句子匹配,句子分类等任务上均有广泛应用,并且上述任务往往作为下游任务来评测sentence embedding的好坏。本文将介绍如何用无监督学习方法来获取sentence embedding,是对近期阅读的sentence embedding论文笔记的总结(https://github.com/llhthinker/NLP-Papers#distributed-sentence-representations)。欢迎转载,请保留原文链接https://www.cnblogs.com/llhthinker/p/10335164.html

    02

    深度学习技术如何应用于文本智能处理?

    在前不久InfoQ主办的Qcon全球软件开发大会上,达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术,特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法?以下内容根据陈运文博士现场分享整理所得。 人工智能目前的三个主要细分领域为图像、语音和文本,达观数据所专注的是文本智能处理领域。文本智能处理,亦即自然语言处理,试图让机器来理解人类的语言,而语言是人类认知发展过程中产生的高层次抽象实体,不像图

    02
    领券