语音识别领域已经开始从研发转为应用,研发比的是标准环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能产生优异的用户体验,而一旦在真实场景下的体验,语音识别便失去独立存在的价值,更多作为产品体验的一个环节而存在。
智能音箱,以一种井喷式的发展出现在大众面前,市场销量以及智能音箱的 AI 属性,促使 2016 年下半年,国内各大巨头几乎是同时转变态度,积极打造自己的智能音箱 。但在 2019 年之后则开始进入市场萎缩的阶段,人们关注的焦点也不再是单纯的技术指标,而是回归到体验,更为一般的、纯粹的商业视角。然而却因为技术瓶颈的限制,客户的体验感觉并未如预期,智能音箱在远场环境中使用的效果也没达到消费者的期待。智能音箱沦为网路听歌、听书的平台,更有众里换他千百度,只收到请再说一次的回应;这与开发智能音箱的初衷出现非常大的差距,而让智能音箱沦为玩具,确实也让市场对于智能音箱的发展产生很大的质疑。目前发展较为成功的应用大多局限于语音翻译机,而智能家居上利用语音作为控制上的应用仅止于产品演示,离真正的实用化还有万里之遥;毕竟环境因素与远场语音识别技术,不管硬体还是软体都还尚未到达成熟可以商业化的程度,这更阻碍市场的发展。
当语音产业寻求下一个发展契机的同时,行业的发展速度反过来会受限于平台服务商的供给能力而导致整体发展速度变缓。从整体市场发展来看,行业下一步发展的本质思维是:在具体每个语音识别产品的投入产出是否达到一个普遍接受的应用,离这个越近,行业就越会接近蓬勃发展,否则整体增速就会相对平缓。然而不管是智能家居、酒店、金融、教育或者其他场景,如果解决问题的投入资金与时间过于漫长,那对投资方的考量就会增加更多犹豫。如果投入后,没有可感知的新体验或者销量促进,那对此投资方也会兴趣缺缺,这会直接影响值不值投资的判断。而这两个事情,归根结底都必须由平台方解决( AI芯片与软件算法的提供 ),产品生产方或者解决方案方都对此无能为力,这是因为语音交互的基础技术包括AI芯片与软件算法,而这两大门槛也并非产品生产方或者解决方案方所能够承担和发展的。
从核心技术来看,整个语音技术有五点技术:唤醒、麦克风阵列 ( MEM技术 ) 、语音识别、自然语言处理、语音合成;这些AI芯片与软件算法相对来说复杂程度非常的高,但从商业角度来看我们就会发现,想要找到这些技术的不足点打造一款体验良好的产品,仍然存在着非常大的技术门槛 。所有语音交互产品都是端点对端点应用的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务系统,确保响应速度,调试自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这对产品生产方或者解决方案商来说都是她们所无法承受之重的;这时候就会催生相应的平台服务商,它要同时解决AI芯片与软件算法技术、内容接入和工程细节等问题,最终达成价格成本够低、体验却足够好的消费者期待目标。
国内则缺乏系统整合的平台提供商,当前的平台提供商分为两种:一种是传统互联网或者上市公司;一类是以语音识别技术为主的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻,因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务,比如兼容性方面新兴公司做的会更加彻底,这种兼容性对于一套产品同时覆盖全球市场是相对更加有利的。
人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身,而相对的周边传感器与执行器的开发,可将整个系统更加完善、更接近人内的言行与思考模式,这样的结果会带来数字化程度更高,越来越接近数字化的生活。
资料图片取自网路,如有侵权高之后删除
领取专属 10元无门槛券
私享最新 技术干货