首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google发布细致分类的情绪资料集GoEmotions

Google发布大型且由人工注解的情绪资料集GoEmotions,该资料是目前最大型的全注解英文高精细度情绪资料集,能够用于细致的情绪预测应用上。GoEmotions是Google在Reddit上,从英语子版截取了5.8万条评论,并以27种情绪类别标注。

GoEmotions考量心理学和资料适用性,有别于基本的6种情绪,该资料集包含12种正面情绪,11种负面情绪和4种暧昧不明的情绪,还有1种中性情绪,使其能广泛地应用在需要细微区分情绪的对话理解任务。

人类能够通过简单地以文本和话语,微妙地传递复杂的情感,而自然语言处理研究社群的一个长期目标,便是要让机器人能够理解对话的上下文和情绪,使得聊天机器人能更善解人意,甚至是能够侦测线上有害的行为,或是改进客服功能等。

在过去10年,自然语言处理研究社群所制作的多个分类情感的资料集,大部分都是手动构建,领域涵盖新闻标题、电影以及故事,资料集规模不仅较小,也仅限于愤怒、惊讶、厌恶、喜悦、恐惧和悲伤6种基本情绪。

而Google的目标,是要创建一个专注于对话的大型情绪资料集,而Reddit平台提供了大量公开可用的内容,因此Google截取从2005年到2019年1月的评论资料,作为资料集的内容。不过,因为Reddit的用户存在性别偏差,年轻男性占多数,无法用来反映全球多样化的人口,而且Reddit不乏有攻击性或是歧视等有毒言论,为了解决这些问题,Google使用资料过滤技术,移除了不适合的内容,而且同时也调整了资料,避免活跃的Reddit子板言论过度代表不活跃的子群体。

GoEmotions提供了大量人工注解的情感资料,特别的是提出了一种更简单的启发式方法,将嵌入在用户对话的表情符号,作为情绪分类的项目,这种方法可以用在包含合理表情符号的语言语料库,像是对话性的资料。

但官方又提到,虽然许多表情符号与情绪相关联,但是情感非常微妙且多样,在许多情况下,单一表情符号并无法真正捕捉情绪的完整复杂性,而且表情符号代表着情绪所带来的表情,因此Google认为表情符号更应该被视为表达而非情绪。这类型的情绪资料,对于构建富有表现力的对话代理,或是建议上下文表情符号相当有用,将会是研究人员未来的研究领域。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211102A06J0X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券