11月6日,锤子科技在成都举行了新品发布会,发布了首款智能音箱——“大卫和希瑞高级智能音箱D1”。据了解,锤子的这款音箱搭载了猎豹移动旗下人工智能公司猎户星空的全套语音OS解决方案,包括语音合成(TTS)、自然语言处理(NLP)、语音识别(ASR)等一系列的技术。同时,猎户星空还针对锤子打造了业界首个“一人分饰两角”的声音人设引擎。
老罗在现场表示,今后还将联合猎户星空,推出更多有个性的人物设定。他同时感谢合作方猎户星空,“我们提了最多、最‘变态’和最让他们意外的需求,他们仍然给了我们最好的支持。”在猎豹移动的“321机器人之夜”上,老罗就曾为好友——猎豹移动董事长兼CEO傅盛站台,并表示“猎户语音OS是市面上最好用的语音OS”。今天回到锤子的主场,老罗也用行动证明了自己当时打的Call。
老罗:“市面上最好用的语音OS”语音交互能力被看作是智能音箱的“灵魂”。据不完全统计,目前国内有数十家“语音开发平台”,竞争十分激烈。作为老罗口中“最好用的语音OS”,猎户星空为什么能从众多竞争对手中脱颖而出,为手机界里最具“工匠精神”的锤子科技保驾护航?
双人设-TTS双人设引擎功能是本次发布会上的最大亮点之一。这是猎户针对锤子打造的业界首个“一人分饰两角”的声音人设引擎。不同于以往的语音交互体验中,只有一个声音一个人设,或最多支持声音的切换,双人设引擎功能采用猎户的语音合成技术,基于大数据情感的语音合成、汉语语音合成引入重音,打造了男生“耿大卫”、女生“何希瑞”在生活和工作中的不同性格特征。
在双人设的TTS合成上,猎户星空也花了很大的心血。从最初的发音人挑选到最后的语音合成,严格把控每一个环节,只为把合成的声音做到最好。在确定好人设风格后,从200个发音人中投票选出男、女发音人,经过3个月的时间,打造出人设相关的情感语音库。
中英文混合识别能力多语种混合Query的识别是语音技术中攻克的难点,例如,“我想听TaylorSwift的OneMoreNight”这样一句普通的需求,正常人都可以理解。但是对于智能音箱来说,就是一个不小的挑战。这是因为,语种切换对语言模型带来了更大的复杂度。为了解决这一难题,猎户语音OS团队投入了大量的精力,特别是针对性优化了中英文点播体验,达到了行业领先效果。
领取专属 10元无门槛券
私享最新 技术干货