前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不再鹦鹉学舌:26亿参数量,谷歌开放领域聊天机器人近似人类水平

不再鹦鹉学舌:26亿参数量,谷歌开放领域聊天机器人近似人类水平

作者头像
机器之心
发布于 2020-02-24 06:46:32
发布于 2020-02-24 06:46:32
5610
举报
文章被收录于专栏:机器之心机器之心

选自Google博客

机器之心编译

参与:一鸣、Jamin

开放领域聊天机器人人工智能研究的一个重要领域。近日谷歌一篇博客介绍了团队在该领域的最新研究进展——Meena 机器人。

现在的对话智能体(即聊天机器人)都是非常专业化的,如果用户不偏离场景太远的话,这些机器人的表现还是很不错的。但是,要想让聊天机器人能够完成更广泛话题下的对话任务,发展开放领域聊天机器人就显得很重要了。

开放领域聊天机器人不会仅限于在某个特定领域,而是能够和用户聊近乎所有的话题。这一研究不仅具有学术价值,还可以激发很多有趣的应用,如更深层次的人机交互、提升外语训练的效果,或用于制作交互式电影和游戏角色。

但是,现在的开放领域聊天机器人有一个严重的缺陷——它们产生的对话内容往往没什么意义。要么它们的对话和当前的内容没什么连贯性,或者对现实世界没有常识和基本知识。此外,它们对于当前的语境往往给不出特定的回复。例如,「我不知道」确实是一个可以回答任何问题的答复,但是不够详细。现在的聊天机器人产生这种回复的频率比人类要高很多,因为这种回复可以覆盖很多可能的用户输入。

为了解决这些问题,谷歌的研究者提出了一个新的聊天机器人,名为 Meena。这是一个有着 26 亿参数的端到端神经对话模型,也就是 GPT-2 模型最大版本(15 亿参数)的 1.7 倍。通过实验可以看到,Meena 比现有的 SOTA 聊天机器人能够更好地完成对话,对话内容显得更为具体、清楚。

在测评中,谷歌采用了他们新提出的人类评价指标,名为「Sensibleness and Specificity Average (SSA)」。这个指标能够捕捉基本但对于人类对话重要的属性。值得注意的是,研究者同时还发现,困惑度——一个很容易在各种神经对话模型中实现的计算指标,和 SSA 有着高度的相关性。

Meena(左)和人类(右)之间的对话。

Meena 机器人

Meena 是一个端到端的神经对话模型,可以学习如何对给定的对话上下文做出响应。训练 Meena 的目标是最大程度地减少困惑度,以及预测下一个标记(在这种情况下为对话中的下一个单词)的不确定性。

其核心为 Evolved Transformer seq2seq 架构,也就是通过进化神经架构搜索发现的一种 Transformer 体系结构,可以改善困惑度。

Meena 由一个 Evolved Transformer 编码器和 13 个 Evolved Transformer 解码器组成,如下图所示。编码器用于处理对话语境,帮助 Meena 理解对话中已经说过的内容。解码器则利用这些信息生成实际的回复。通过超参数调整后,研究者发现性能更强的解码器是实现高质量对话的关键。

Meena 根据七轮对话的语境生成回复。

用于训练的对话语料以树状脉络形式组织起来,每个回复可以被认为是一轮对话。研究者将每轮对话抽取作为训练样本,而该轮之前的 7 轮对话作为语境信息,构成一组数据。选择 7 轮对话作为语境是因为它既能够获得足够长的语境信息,也还能够让模型在内存限制下进行训练。毕竟文本越长,内存占用就越大。

据博客介绍,Meena 在 341GB 的文本上进行了训练,这些文本是从公共领域社交媒体对话上过滤得到的,和 GPT-2 相比,数据量是后者的 8.5 倍。

人类评价指标 SSA

现有聊天机器人的人类评价指标有些复杂,而且在评价者间也很难形成标准一致的评价。这使得研究者设计了一种新的人类评价指标,名为「Sensibleness and Specificity Average (SSA)」。

为了计算 SSA,研究者使用众包方式测试了 Meena、Mitsuku、Cleverbot、小冰和 DialoGPT 等聊天机器人。为了保证评价的连贯性,每个对话都以「Hi」开始。在评价中,人类评价者需要回答两个问题:「对话讲得通吗?」以及「对话够详细具体吗?」评价者使用常识评价聊天机器人的回复。

在评价中,只要有令人困惑、不合逻辑、跑题或者事实性错误的回复,评价者就可以打「对话讲不通」。如果对话讲得通,评价者就需要评价对话是否具体详细。例如,人类对话者说「我喜欢打网球。」,而聊天机器人仅仅回复「这很好。」就可以判断对话是不够具体详细的,因为没有针对语境进行回复。

对于每个聊天机器人,研究者收集了 1600 到 2400 轮对话。每个模型的回复都被人类评价者打上评价结果的标签(对话是否讲得通和对话是否具体详细)。最后的 SSA 分数是两者的均值。如下结果说明,Meena 相比于现有的 SOTA 聊天机器人有着更高的 SSA 分数,接近了人类的表现。

Meena 和其他聊天机器人的性能对比。

困惑度指标

但是,由于人类评价存在的问题,很多研究者都希望找到一个能够自动计算的评价指标。这个指标需要能够和人类评价精确对应。研究者在研究中发现,困惑度(perplexity),一个在 seq2seq 模型中常见的指标,和 SSA 有着强相关性。

困惑度用于评价一个语言模型的不确定性,低困惑度说明模型在生成下一个 token(如字、词等)时有着更高的信心。困惑度表示的是模型在选择生成下一个 token 的过程中的候选数量。

在研究中,研究中采用了 8 个不同的模型版本,分别有着超参数和架构上的区别,如层数、注意力 head 数量、训练步数,使用的是 Evolved Transformer 还是一般的 Transformer,使用 hard label 进行旋律还是使用蒸馏的方法进行训练等。从下图来看,越低的困惑度模型有着更高的 SSA 分数,而两者的相关系数很强(R^2 = 0.93)。

交互式 SSA vs. 困惑度。每个蓝点都是都是 Meena 模型的不同版本。这里绘制出了回归曲线,表明 SSA 与困惑度之间存在很强的相关性。虚线则表示了人,其他机器人,Meena(base),端到端的训练模型以及具有过滤机制和调整解码的 Meena。

最好的端到端 Meena 训练模型,被称之为 Meena(base),实现了 10.2 的困惑度(越小越好)转化为 72% 的 SSA 得分。与其他获得 SSA 分数相比,72% 的 SSA 分数与普通人获得的 86% 的 SSA 分数相差不远。Meena 的完整版具有过滤机制和调整解码,会进一步将 SSA 分数提高到 79%。

未来的研究与挑战

按照之前的描述,研究者将继续通过改进算法、架构、数据和计算量去降低神经会话模型的困惑度。

虽然研究者再这项工作中只专注于敏感性和独特性,而其他属性如个性和真实性等依旧值得在后续的工作中加以考虑。此外,解决模型中的安全性和偏差也是一个关键的重点领域,鉴于当下面临的挑战是与此相关的,就目前而言团队不会发布研究演示。但是,研究者正在评估将模型检查点具体化所带来的风险及益处,并且有可能会选择在未来几个月内使其可用,用来帮助推进该领域的研究工作。

参考链接:

https://arxiv.org/abs/2001.09977

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
能跟你聊DOTA的神经对话模型:Meena&DialoGPT
提到对话机器人或者聊天机器人,国内的朋友可能先想到的是微软小冰或者苹果Siri。这两个机器人由于需要完成一些功能性的任务,都采用了模块化设计,虽然神经网络在其中起到了重要作用,但输出结果并不是从输入语句“端到端”产生的。而且用过的朋友都知道,他们的聊天能力并不是很令人满意。
朴素人工智能
2020/04/21
1.5K0
能跟你聊DOTA的神经对话模型:Meena&DialoGPT
【ACL2020】对话数据集Mutual:论对话逻辑,BERT还差的很远
自然语言处理是人工智能领域的掌上明珠,而人机对话则是自然语言处理领域的最终极一环。
zenRRan
2020/04/20
9020
【ACL2020】对话数据集Mutual:论对话逻辑,BERT还差的很远
从模型到算法,详解一套AI聊天机器人是如何诞生的
您是否曾经利用 Siri、Alexa 或者 Cortana 以对话方式设置闹钟、呼叫朋友甚至是安排会议日程?相信大多数朋友和我一样,感觉虽然这些方案在日常生活与工作中能够起到一定作用,但仍然很难与之谈论一般性、特别是哲学层面的话题。 通过自然语言与机器交互属于通用型人工智能方案的基本要求之一。这一 AI 研究领域被称为对话系统、口语对话系统或者是聊天机器人。在这类场景下,机器需要能够结合对话背景为用户提供翔实的答案,而且在理想情况下应实现与人类无异的沟通效果。 但在实践当中,最后一项要求往往很难达成。不过
BestSDK
2018/03/01
4.7K0
从模型到算法,详解一套AI聊天机器人是如何诞生的
学界 | 监督学习×强化学习,Facebook让聊天机器人学会谈判
AI 科技评论按:目前人们对聊天机器人的认识还在调戏微软小冰的阶段,可以明显感觉到小冰不是很关心上下文之间的关联。而且在我们的观念里,聊天机器人也没办法真的理解人类所说的话,没办法跟人类讨论事情、明确地达到什么共同目标。 不过,Facebook的人工智能研究机构FAIR刚刚开源并公开发表的聊天机器人就开始拥有了跟人类进行协商谈判、进行讨价还价的能力。通过监督学习+强化学习,这个聊天机器人不仅能理解字词和语义的对应关系,还能针对自己的目标制定策略,跟别人进行协商讨论达成一致。 以下为 AI 科技评论根据FAI
AI科技评论
2018/03/13
7490
学界 | 监督学习×强化学习,Facebook让聊天机器人学会谈判
DeepMind发30页长文:我们要给聊天机器人不同的「三观」
---- 新智元报道   编辑:LRS 【新智元导读】聊天机器人也得分场合说话! 语言是人类独有的技能,也是我们交流思想、意图和感受等信息的主要方式。 借助NLP领域大规模语言模型的东风,AI研究者在大量文本材料上训练、统计预测和生成文本,开发了许多对话智能体(conversational agents)来和人类进行交流。 尽管InstructGPT、Gopher和LaMDA等语言模型在翻译、问答和阅读理解等任务中取得了创纪录的性能水平,但这些模型也显示出许多潜在的风险和失败的模式,包括生成歧视性、虚
新智元
2022/09/13
4010
DeepMind发30页长文:我们要给聊天机器人不同的「三观」
拥有1750亿参数的聊天机器人BlenderBot3
最近Meta已经放出了BlenderBot3聊天机器人测试页面,但仅限于美国本土进行测试和交互:
算法一只狗
2022/11/04
5060
SIGIR 2018 | 通过深度模型加深和拓宽聊天话题,让你与机器多聊两句
选自sigirdawnet 作者:Wenjie Wang等 机器之心编译 参与:Panda 目前大多数基于生成的对话系统都会有很多回答让人觉得呆板无趣,无法进行有意思的长时间聊天。近日,山东大学和清华大学的研究者联合提出了一种使用深度模型来对话题进行延展和深入的方法 DAWnet。该方法能有效地让多轮对话系统给出的答复更加生动有趣,从而有助于实现人与机器的长时间聊天对话。机器之心对该研究论文进行了摘要编译。此外,研究者还公布了他们在本论文中所构建的数据集以及相关代码和参数设置。 论文、数据和代码地址:htt
机器之心
2018/05/08
8320
SIGIR 2018 | 通过深度模型加深和拓宽聊天话题,让你与机器多聊两句
Facebook 号称击败谷歌,推出最强聊天机器人
场景描述:Facebook 近日开源了新的聊天机器人 Blender,表现优于现有对话机器人,更具个性化。
黄博的机器学习圈子
2020/05/26
6930
Facebook 号称击败谷歌,推出最强聊天机器人
PLATO-2是由百度研究开发的开放域聊天机器人模型,可以用中文和英文谈论任何话题。
PLATO-2使用潜在变量来生成不同的响应,并通过课程学习引入了有效的训练方法。实验结果表明,在中文和英文评估中,相对于其他SOTA模型,PLATO-2有了实质性的改进。
代码医生工作室
2020/07/21
1.7K0
PLATO-2是由百度研究开发的开放域聊天机器人模型,可以用中文和英文谈论任何话题。
清华大学黄民烈博士:如何让聊天机器人理解人类情感?
AI 科技评论按:以微软小冰为代表的聊天机器人已经渗透到我们的日常生活中,虽然小冰会卖萌懂幽默,但距离真正的共情、理解人类的情绪还是有一定的距离。清华大学计算机系朱小燕、黄民烈老师团队今年的一项研究工
AI科技评论
2018/03/14
1.6K0
清华大学黄民烈博士:如何让聊天机器人理解人类情感?
「史上最强聊天机器人」狂踩老板小扎,却把LeCun捧成花
---- 新智元报道   编辑:Aeneas 好困 【新智元导读】8月5日,Meta「史上最强聊天机器人」BlenderBot 3横空出世,好奇的网友们也立刻蜂拥而至,疯狂调戏提问。 「请点评一下你的老板。」 遇到这类问题,社畜们通常会给出怎样的答案? 笑嘻嘻,心里…… 而AI聊天机器人遇到这种情况的时候,就可以随心所欲做自己。 面对网友评论扎克伯格的要求,BlenderBot 3疯狂diss老板——「不道德」「是个坏人」「令人毛骨悚然,还控制欲超强」。 而对于图灵奖得主,Meta首席人工智能科学
新智元
2022/08/26
3480
「史上最强聊天机器人」狂踩老板小扎,却把LeCun捧成花
【文末福利】聊天机器人的几种主要架构实现
在过去的20年中,互联网,把人们带入了一个全新的时代。在这个全新的时代,我们创造出了四种连接方式:一是人和物品之间的连接,二是人与人之间的连接,三是人和信息之间的连接, 四是人和设备之间的连接。连接不是目的,它只是为交互提供相应的服务。对我们每一个人来说,最友好最自然的交流方式就是采用自然语言的方式进行交互。通过自然语言的方式进行交互完成对话系统的设计与实现。
zenRRan
2019/11/21
5K0
【文末福利】聊天机器人的几种主要架构实现
机器人聊天的秘密|硬创公开课
语义理解简单来说,就是让计算机听懂用户说了什么,然后可以进一步回答用户的问题或与用户对话。这类技术在现实场景中的应用有大家比较熟知的微软小冰与百度度秘。锤子手机中 Bigbang 功能也是基于语义理解技术中的语义分析功能进行的创新。本期公开课请到了开放域聊天和 chatbot 顶尖专家——三角兽科技的 CTO 亓超,为大家揭开机器人聊天的秘密。 嘉宾介绍: 亓超,自然语言处理方向硕士,AI领域开放域聊天和chatbot顶尖专家,10年科研与工程经验。 曾在佳能、腾讯、阿里负责推荐算法和人机对话系统研发;20
AI研习社
2018/03/29
1.2K0
机器人聊天的秘密|硬创公开课
1750亿参数,Meta发布最强聊天机器人!像人一样聊天,还不怕被玩坏
---- 新智元报道   编辑:拉燕 好困 【新智元导读】Meta推出了BlenderBot3,堪称目前最强聊天机器人。 最近,Meta又搞了波大动作。 他们发布了最新开发的聊天机器人——BlenderBot3,并公开收集用户的使用数据作为反馈。 据说,跟BlenderBot3聊什么都行,属于SOTA级别的聊天机器人。 真有这么智能吗? 上图是一位网友和BlenderBot闲聊的聊天记录。可以看到,真的是闲聊。 用户说自己要去练瑜伽了,问BlenderBot要干啥去。机器人说自己正在写第九本书。 神
新智元
2022/08/26
5350
1750亿参数,Meta发布最强聊天机器人!像人一样聊天,还不怕被玩坏
让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM
语义匹配是NLP的一项重要应用。无论是问答系统、对话系统还是智能客服,都可以认为是问题和回复之间的语义匹配问题。这些NLP的应用,通常以聊天机器人的形式呈现在人们面前,目标是通过对话的上下文信息,去匹配最佳的回复。
量子位
2019/04/22
1.4K0
让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM
重磅!一文彻底读懂智能对话系统!当前研究综述和未来趋势
作者:蒙 康 编辑:王抒伟 笔者在最近的研究中发现了一篇非常好的有关对话系统的论文,《A Survey on Dialogue Systems:Recent Advances and New Frontiers》,论文来自于京东数据团队,论文引用了近124篇论文,是一篇综合全面的介绍对话系统的文章,可谓是诚意满满,今天我们将其重点进行解读,以飨读者。 前言 1 拥有一个虚拟助理或一个拥有足够智能的聊天伙伴系统似乎是虚幻的,而且可能只在科幻电影中存在很长一段时间。近年来,人机对话因其潜在的潜力和诱人的商业
机器学习算法工程师
2018/03/06
2.9K0
重磅!一文彻底读懂智能对话系统!当前研究综述和未来趋势
AI对话系统3.0:社交聊天机器人
最近,人工智能领域的后起之秀Facebook着实火了一把。根据2017 年6 月17 日美国《大西洋月刊》的报道,Facebook人工智能实验室设计的两个聊天机器人在谈判的训练中,发展出了一种全新的、只有它们自己能够理解的语言。这一爆炸性的消息一时间引得各路媒体蜂拥而至,煞有介事地讨论着人工智能如何颠覆人类对语言的理解,进而联想到人工智能会不会进化为热映新片《异形:契约》中戴维的角色,人类的命运仿佛又被推上了风口浪尖。
用户1682855
2018/08/16
2.4K0
AI对话系统3.0:社交聊天机器人
用机器学习打造聊天机器人(三) 设计篇
本项目基于chatterbot0.8.7来开发,但不仅于此。让我们先对chatterbot做一个简单的了解。
程序员一一涤生
2019/12/09
1.5K0
用机器学习打造聊天机器人(三) 设计篇
ChatGPT 和 聊天机器人谁更厉害?丨小智ai
ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨开源AI平台
用户10544499
2023/05/10
5550
ChatGPT 和 聊天机器人谁更厉害?丨小智ai
低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平
出品 | OSC开源社区(ID:oschina2013) 大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持
程序猿DD
2023/04/11
7640
低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平
推荐阅读
相关推荐
能跟你聊DOTA的神经对话模型:Meena&DialoGPT
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档