很难想象一个刚两岁的新产品已经如此强大,影响和改变着用户数字生活的方方面面。
文 | 光谱
你是那种一打电话就紧张害羞,更喜欢发邮件和微信的人吗?
如果是的话,恭喜你!人工智能已经可以完美解决你的困扰了。
Google 的人工智能助理 Google Assistant,最近学会了一项新技能:冒充真人给餐馆、发廊、酒店、咖啡馆、电影院……给你能想到的所有各种消费场所打电话,帮你锁定预约、查询信息……
不信?请看下面的视频:
明明就是真人对不对!
这段电话的确是真的,而会话中的顾客一方,的确是由 Google Assistant 扮演的……
我们应该都听过 Google Assistant 的声音是什么样的。现在的这位是女声,声音的背后是一位真的女生(姓名未知),在 Google 的总部花了几个月的录制时间,才将虚拟助手训练成现在的声音。
在过去,Google Assistant,以及包括 Siri、Cortana、Alexa 在内的所有虚拟语音助手,都用的是一种标准的,近似于语言课上标准发音、语速等的发音方式。
然而人类在现实中说话,有着各种各样的口音、语速,语调在不同字和词上有轻有重,在思考跟不上说话的时候会用“嗯”、“那个”、“you know”“之类的填空词。
这也是为什么当和虚拟语音助手聊天时总感觉怪怪的,因为尽管你在心理上强迫自己将语音助手当成是人,他们给你的回复却总是自信而标准。而这让你下意识立刻察觉到他们不是人,继而产生一种近似于“自说自话”的尴尬感。
在2018年Google开发者大会( I/O)的主题演讲中,Google CEO 颂达尔·皮柴 (Sundar Pichai) 表示,Google Assistant 部门的一个最重要的目标,就是让用户和虚拟助手的对话变得更加自然,就像和真人交流那样。
注意到在刚才这通电话中,这一边扮演顾客的 Google Assistant 在整个对话中多次出现了类似于真人的反应。
比如一开始,对面说出了“好的,请稍候一小会”,之后是短暂的沉默。对方虽然说出了一个请等候的祈使句,在正常的人际交流中,顾客这边应该表示“好的”、“没问题”之类的意思,但对于虚拟助手这种以完成指令和回答问题为主要工作的人工智能而言,它没有理由对这一句做出任何回复,然而它还是在稍等了大约一秒钟后做出了一个“嗯哼” (Mm-hmm) 的表达。
再比如,在通话接近尾声的位置,对方多次给出了问句,而 Google Assistant 这边尽管一直用的是陈述句来回答,却都在句尾用了升调,和人类使用英文进行对话表达时的习惯极为相似……
再比如,在通话中间,对方告知中午 12 点左右没有空,最近的是下午一点多。Google Assistant 的应变方式不是接受一点多,而是给了对方一个新的时间范围,并最终完成了预约。
以假乱真的语音生成能力之外,即兴是 Google Duplex 技术的另一个最主要的特色。在另一个案例中,这种即兴能力得到了更加充分的展示:
首先,有经验的朋友们大概已经听出来了,对面这是个中餐馆……餐馆老板的英文表达能力有限,并没有严格符合标准的英语语法,但扮演顾客的虚拟助手还是能够理解。
注意通话中间,餐馆老板告知“4个人不用定位,可以直接来”时,原则上虚拟助手到这里就可以挂电话了,因为订位的任务已经完成。然而它没有挂掉,而是做出了一个堪称优秀的即兴追问:“通常等位时间有多久”。
如果之前就挂掉,这只是一个普通的通话而已,而这个即兴的存在,在 Google CEO 颂达尔·皮柴 (Sundar Pichai) 看来,让双方之间交互得更“优雅”(gracefully) 了。
Duplex 的功能还不仅限于和对话。在完成一通电话之后,如果取得了结果,Google Assistant 会用通知提醒用户,并在日历上记录事件。
皮柴表示,公司在自然语言理解,深度学习和语言转文字上投入巨大,而 Duplex 对这三大技术融会贯通。“Duplex 还有很长的路要走,不是所有的电话都完美结束,但这项技术已经能够理解对话的上下文,每句话所表达的细微的意义差别。”
不过,自然语言理解仍是一项非常高难度,在真实环境中面临着巨大挑战的技术。Duplex 在面对极其复杂的语句时,仍然有很大的压力和错误率。还是在预约的场景下,在一个案例中,对方非常口语化地介绍了店在工作日和周末不同的营业时间,然后自己对同一句中之前的表述做了修改。
但皮柴还是对 Duplex 充满信心,“如果最后能做好,这项技术将为商户和顾客带来极大的价值。”
除了 Duplex 技术之外,在今天的 I/O 大会上,Google 也宣布了虚拟助手其它非常多的功能更新,其中有不少十分强大……
1/ 新的声音:可能用户已经听腻了 Google Assistant 的标准声音,这也是为什么 Google 决定为它再增加 6 种不同的男声和女声。其中就有一种来自于曾经在《爱乐之城》里出演过的美国歌手约翰·传奇 (John Legend)。
不过,厉害的并不是请来约翰·传奇,而在于 Google 为 Assistant 生成新声音的效率有多高。
DeepMind 训练出了一个深度神经网络模型 WaveNet,能够高效地生成原始音频。利用 WaveNet,只用很少量的语料,辅以强大的计算,Google 就可以制作出和原始语料相似度极高的语音形象,用时从几个月降低到了几百小时。
2/ 多轮对话能力进步:在过去,跟 Google Assistant 对话,需要每一句前面都加一个唤醒词 “Ok Google”。从今天开始这个设定终于退役了,因为 Google Assistant 获得了增强的多轮对话能力。不仅如此,它还能理解你是在跟它还是跟别人说话,不会尴尬地加入到聊天当中。
3/ 多重任务处理(Multiple Actions):自然语言交流的一个特点就是复杂性,一句话里面可能同时表达多个意思。最直观的例子,“请看一下今天的天气发给安妮”、“今天纽约和奥斯丁的天气怎么样”,或者“把厨房的灯和厕所的换气关掉”。
只要记性不差,正常人都能完成,而且多半会下意识将它们看做是同一个任务。问题是在过去,别提多重任务,某些虚拟助手连一个简单的任务都完成不了。
不过从今天开始,Google Assistant 将能够一次性处理多重任务了。
4/ Gmail 智能写邮件(Smart Compse):你应该知道 Gmail、Inbox 支持智能回复,但过去只有“感谢”、“就这样”之类的简单回复。很快,Gmail 就将获得一个强大的智能写邮件功能。就像搜索引擎的自动完成一样,Gmail 也会根据你写的上一个单词自动建议下一个单词,直到你把整个邮件都写完……
听起来挺扯淡的,但不妨看看效果:
5/ 推荐动作(Suggested Actions):跟 Google Photos 结合,基于人工智能的一些贴心的小功能。比如推荐把合影分享给朋友;照片曝光不足时会建议增加曝光;检测到拍照的内容是文件的话,会自动转成扫描文档;以及最棒的功能——上传一张黑白或者褪色的老照片,自动增加颜色!
目前,Google Assistant 已经进入了超过 5 亿台手机、汽车和智能家庭设备。到今年年底它将支持 30 种语言,进入 80 个国家市场。
在皮柴看来,Google Assistant 存在的意义是帮助所有的用户,包括个人用户、中小企业,四肢心智健全或者有不同残疾的人,用人工智能去改善他们的生活。
仅仅两年前的 I/O,Google Assistant 才首次亮相。很难想象一个刚两岁的新产品已经如此强大,影响和改变着用户数字生活的方方面面。
仅代表作者观点,不代表本刊立场
END
领取专属 10元无门槛券
私享最新 技术干货