你面对的几乎所有的问题都充斥着各种无关的信息;如果你能挑出主要矛盾,你就能更清楚地知道你需要做什么。 ——香农
论文地址:https://arxiv.org/pdf/1905.05526.pdf
今天听了李纪为博士的分享,本次分享内容来自香侬科技最近刚刚在NLP领域国际顶级会议ACL2019上投中的一篇文章。
李纪为,香侬科技创始人,斯坦福大学计算机学院历史上第一个三年获得博士学位的人。作为人工智能领域的青年创业者,去年入选福布斯中国“30位30岁以下精英榜”。在剑桥大学学者Marek Rei发布的自然语言处理 2012-2016 年顶级会议作者统计中,李纪为以14 篇顶级会议论文第一作者的数据排名第一。
长期以来,中文分词在NLP的研究中一直受到广泛关注,“字”是句子的最小单元,但是“词”具有完整的语义功能,大多数“词”都是多个“字”组合在一起。导致人为习惯性的认为“词”包含了更多语义信息,表现形式肯定好,分词成了很多中文NLP任务的第一步。但是,这只是以人的思维来觉得“词”的表现肯定优于“字”的表现,对神经网络而言未必。
那么基于深度学习神经网络框架下的NLP任务中,到底是“字”好还是“词”好?有没有分词的必要?单独“字”、“字”和“词”结合,单独“词”的NLP问题进行了探讨。
基于以上,利用四个中文NLP任务(语言建模、机器翻译、句子匹配、文本分类)探究“词”级别和“字”级别的表现,“字”级别的表现几乎总是优于“词”级别的表现。
就简单总结到这吧,想了解细节建议读paper。