语音交互是未来主要的车内交互方式。时下语音助手几乎开始向标配化的趋势发展。有资料显示:截止2021年,中国乘用车智能语音交互功能的搭载率已经高达86%。
然而车主们对待这个功能的使用率却呈现两极分化,要么极低,要么非常高。因为不好用的语音功能除了耗费更高的时间成本外,还有可能让你越用越生气,甚至大呼“人工智障”。
在小鹏汽车的上一代语音产品中,可见即可说的全场景语音能力和极低的误识别率,让语音成为鹏友连接座舱最主要的交互方式,用户使用率34个月高达99%。而随着全场景语音2.0的推出,更强大的功能体验有望继续刷新这一数字。
到底什么样的语音助手才能让鹏友用起来更爽?今天我们单独聊一聊速度对于交互体验的影响,挖一挖大家都爱用的车载语音助手小P的背后,工程师为你呈现的便捷和周到。
1
为何交互速度快会让人感到舒适?
根据统计,一般来说,人与人之间的对话的间隔时间平均是在200ms,这也基本等同于大脑的反馈速度。也就是说,当两个人之间对话的时候,维持在这个速度左右会比较舒服,太慢会让人着急,太快也会让人有压迫感。
在搭载全场景语音2.0的小鹏G9车载交互系统中,工程师在设计交互速度的时候充分考虑到了用户的舒适区间:从唤醒小P到界面反馈仅需245ms,而小P给出语音反馈的时间则小于700ms,是目前最快的语音助手。
2
怎么样才能更快?
虽然小P语音助手的交互反馈速度正在逐步接近人人交互,但智能语音交互系统毕竟不同于真正会思考的人类大脑,让我们一起来看看它是通过哪些技术优化探索来实现这一效果的:
响应速度更快
在智能座舱领域,每一个功能的开发都是经过场景化的思考来决定的。而这一次,工程师们将用户所有常用场景所包括的语音控制车辆、控制应用,都下放到了车端直接实现,这就大大提升了响应速度。
目前,全场景语音2.0可以做到,从用户发出指令到执行动作用时在1秒以内。这也是行业最快的极速响应。
像同声传译员一样,边听边想边做边答
我们刚刚讲到,从用户发出指令到执行动作用时在1秒以内,这已经是行业领先的速度。但当用户指令语义模糊时,目前仍然需要更强大的服务器在线处理,联网则需要更多时间,这样的情况下,如何做到更快?
为了达到更快的目标,工程师们模拟了类似“同声传译”的工作方法:用户还没说完就开始行动。
同声传译员需要在工作中听得准,且不断根据新收到的信息用最快的速度调整输出语言。语音助手则需要有强大的思考能力应对不断增加的新信息带来的语义变化,同时维持准确的理解力,每一个字都可能引起巨量的服务器访问请求。
拥有了流式理解能力的小P,可以边听边想边做边答,像同声传译员一样,让需求在语音指令结束的一瞬间完成全部理解。
流式理解能力应用在车载语音助手领域是非常罕见的,不过,有了它,用户的在线请求的满足效率可大幅提速200ms以上。
一次多说几个指令,一起执行
一般来说,我们在与人交流时,如果需要对方提供多个帮助,可能会尽量一次性告诉对方,不然对方可能会说:你能不能一次性说完?
在与智能座舱的交互中,也会遇到这个场景,小P虽然不会不耐烦,但逐个发布指令到响应后再发出,多个来回大大降低执行效率,让对话过程变得很机械化,影响用户的体验。
面对2-4个同时发出的并行指令,其实也可以让小P同时做到。
比如:当你在雨中驾车,突然雨势变大,视线也因车窗起雾开始看不清时,一句“帮我打开远光灯和雾灯打开前除雾并把雨刷速度设为高”,一句话坐享其成,安全又从容。
3
快还不够,还要准确
97%的准确率
“卡拉OK厅般喧嚣也能听清你的指令”
如果仅仅是响应速度够快,但不够准确,也是没有意义的。
为了让语音功能好用,用户能够常用,并且始终不断迭代更高的能力,小鹏的语音工程师团队在看不见的地方不断尝试着突破新的挑战,比如G9的杜比全景声的效果对于用户而言是震撼的声学效果,但对于语音控制来说,高回声的座舱空间意味着极度恶劣的声学条件,类似在卡拉OK厅里听清正常讲话,对于一台机器,其处理难度可想而知。
在高噪声、高混响、低信噪比环境下,通过语音基础能力的自研方案,小鹏解决了低信噪比下的回声消除难题,达到对播放中的杜比全景声音乐“充耳不闻”,并进一步,将其它噪声源发出的噪声也限制在不影响语音信号收听的程度,唤醒率和语音识别准确率都达到了97%,保障了真正准确且极速的语音控制效果。
小鹏全场景语音2.0所带来的极速体验以及背后所展现的能力就先讲这么多,其实,语音工程师在看不见的地方的努力还有很多,未来也会慢慢跟大家交流。
与智能座舱的交互伴随着用户几乎所有用车时间,所以语音交互的体验也贯穿用户的每一次出行驾乘体验。这也是小鹏为什么坚持在语音能力的研发上大力投入的原因:我们希望鹏友选择小鹏后,能够在日常用车中通过语音充分调动智能座舱的服务能力,享受科技带来的快乐和简单。
是旗舰,更是前所未见
领取专属 10元无门槛券
私享最新 技术干货