首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    自然语言处理基础知识1. 分词(Word Cut)2. 词性标注(POS Tag)3.自动标注4.文本分类5.评估6.从文本提取信息7.分析句子结构《python自然语言处理》各章总结:

    1. 分词(Word Cut) 英文:单词组成句子,单词之间由空格隔开 中文:字、词、句、段、篇 词:有意义的字组合 分词:将不同的词分隔开,将句子分解为词和标点符号 英文分词:根据空格 中文分词:三类算法 中文分词难点:歧义识别、未登录词 中文分词的好坏:歧义词识别和未登录词的识别准确率 分词工具:Jieba,SnowNLP,NlPIR,LTP,NLTK 2. 词性标注(POS Tag) 词性也称为词类或词汇类别。用于特定任务的标记的集合被称为一个标记集 词性:词类,词汇性质,词汇的语义

    07

    Nature neuroscience:利用encoder-decoder模型实现皮层活动到文本的机器翻译

    距离首次从人脑中解码语言至今已有十年之久,但解码语言的准确性和速度仍然远远低于自然语言。本研究展示了一种通过解码皮层脑电获得高准确率、高自然程度语言的方法。根据机器翻译的最新进展,我们训练了一个递归神经网络,将每个句子长度下诱发的神经活动序列编码为一个抽象的表达,然后逐字逐句地将这个抽象表达解码成一个英语句子。对每个参与者来说,数据包括一系列句子(由30-50个句子多次重复而来)以及约250个置于大脑皮层的电极记录到的同步信号。对这些句子的解码正确率最高可以达到97%。最后,本研究利用迁移学习的方法改进对有限数据的解码,即利用多名参与者的数据训练特定的网络层。本研究发表在Nature neuroscience杂志。

    01

    谷歌发布全新搜索引擎Talk to books

    谷歌作为全球最大搜索引擎公司,发布过很多有趣项目。近日,谷歌又上线了一个名为“Semantic Experiences”(语义体验)的网站,包含了Talk to Books和“Semantris“两个项目,前者是一款基于人工智能的书籍搜索引擎,用户不用像以往的搜索方式,键入书名,作者等关键词,而是可以用书中的某个句子搜索到目标书籍,而后者是一个基于机器学习驱动的单词联想游戏。这两项功能是基于自然语言文本的理解,而语义理解正是人工智能技术发展的重要方向,谷歌希望通过这两个项目让普通人也能感受最新语义理解和自然语言处理技术的强大能力。此外,谷歌还发布了论文《Universal Sentence Encoder》,详细地介绍了这些示例所使用的模型。并提供了一个预训练语义 TensorFlow 模块。

    02

    SFFAI分享 | 罗玲:From Word Representation to BERT【附PPT,视频】

    在自然语言处理任务中,词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。Word2Vec等传统的词向量预训练模型都是静态且上下文无关的,不能很好的处理同一个词不同语义。Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》提出了BERT模型解决了这样的问题。作为刷新GLUE榜单11项NLP任务(句子关系判断,分类任务,序列标注任务等)成绩的预训练模型,BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点,并且通过masked语言模型实现了真正的深度双向模型。同时BERT不仅能更好的处理sentence-level的任务,在token-level的语言任务上也达到了不错的效果。BERT不仅带来了研究的热潮,它对NLP任务的影响也在持续发酵中。

    02
    领券