前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >深度学习框架下中文需要分词吗?

深度学习框架下中文需要分词吗?

作者头像
伊泽瑞尔
发布2022-05-31 20:41:05
发布2022-05-31 20:41:05
2320
举报

你面对的几乎所有的问题都充斥着各种无关的信息;如果你能挑出主要矛盾,你就能更清楚地知道你需要做什么。 ——香农

论文地址:https://arxiv.org/pdf/1905.05526.pdf

今天听了李纪为博士的分享,本次分享内容来自香侬科技最近刚刚在NLP领域国际顶级会议ACL2019上投中的一篇文章。

李纪为,香侬科技创始人,斯坦福大学计算机学院历史上第一个三年获得博士学位的人。作为人工智能领域的青年创业者,去年入选福布斯中国“30位30岁以下精英榜”。在剑桥大学学者Marek Rei发布的自然语言处理 2012-2016 年顶级会议作者统计中,李纪为以14 篇顶级会议论文第一作者的数据排名第一。

在深度学习框架下中文到底需不需要分词?

长期以来,中文分词在NLP的研究中一直受到广泛关注,“字”是句子的最小单元,但是“词”具有完整的语义功能,大多数“词”都是多个“字”组合在一起。导致人为习惯性的认为“词”包含了更多语义信息,表现形式肯定好,分词成了很多中文NLP任务的第一步。但是,这只是以人的思维来觉得“词”的表现肯定优于“字”的表现,对神经网络而言未必。

那么基于深度学习神经网络框架下的NLP任务中,到底是“字”好还是“词”好?有没有分词的必要?单独“字”、“字”和“词”结合,单独“词”的NLP问题进行了探讨。

分词和不分词的优缺点

  • 分词可能会分错,这样后续训练会有误导作用。
  • 词数据稀疏问题不可避免地导致过拟合,而且大量的OOV限制了模型的学习能力。
  • 字缺少语义信息,词能够保证两个字直接的顺序,因为两个字颠倒顺序可能就完全不同的意思了。

基于以上,利用四个中文NLP任务(语言建模、机器翻译、句子匹配、文本分类)探究“词”级别和“字”级别的表现,“字”级别的表现几乎总是优于“词”级别的表现。

探讨

  • 时间复杂度的问题,“字”级别量大,“词”级别的词典中词汇更多,时间复杂度上哪个更快?
  • 做NLP任务时,先基于“字”试试,说不定会有意外的收获。

就简单总结到这吧,想了解细节建议读paper。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据与知识图谱 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在深度学习框架下中文到底需不需要分词?
  • 分词和不分词的优缺点
  • 探讨
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档