超高识别精度,低功耗,为硬件设备和各种应用带来高度可定制化的语音控制解决方案。
超强的灵活性,丰富的功能,为人机交互带来更加安全和易用的解决方案的同时,保障了设备开发商对自身品牌的保有和控制。
TrulyHandsfree在即使是远距离和噪音环境下,仍支持超快的交互反应,超低的功耗,以及优越的性能。
TrulyHandsfree语音控制语音识别技术为开发商带来品牌定制唤醒词,较少条目或者是中型条目数量的语音命令,用户语音身份识别,用户语音身份确认等诸多模式,可广泛支持如智能手机,平板,电脑,穿戴设备,耳机设备,医疗设备,和汽车等。
TrulyHandsfree可支持多种模型组件 -
固定唤醒词, Fixed wake word(FW)
预先定义的与具体用户无关的品牌唤醒词,如Alexa等。Sensory所训练的唤醒词可满足不同人口统计特征性下的不同个体,在真实使用环境下的语音识别需求,真正做到开箱即用。
用户录入的固定唤醒词,Enrolled wake word(EW)
同样是预先定义的品牌唤醒词如 Alexa,但是可适配和识别用户的不同发音特征。此场景需要用户实现录入,但对比FW模式带来了更低的FA和FR的优势。
用户自定义唤醒词,User-defined wake word(UDW)
由用户定义和录入的与具体语言无关的唤醒词或短语。
语音命令
结合FW,EW,UDW,通过对不同产品的交互设计,定义不同的命令行,实现与设备的语音交互。
语音用户身份验证和用户ID, Speaker Verification and Speaker ID
可实现语音密码功能。检测不同呼叫的差异性,对声音差异性非常敏感。此方案同样需要用户录入。
语音活动探测, Voice Activity Detector(VAD)
识别和判断用户语音的开始和结束,并捕获语音形成语音WAV流文件,可送至云端处理。
误接受过滤, False Accept Filtering
一种先进的机器学习算法,用以降低FA。某些情况下可降低50%-90%之多。
低功耗声音探测, Low-power Sound Detection(LPSD)
适用于DSP版本的TrulyHandsfree,仅处理和识别一定声音能级以上的语音。
模型集合, Model Combining
支持并行模式下的多唤醒词同时监听,也可实现串行下的唤醒词接语音命令的方式。
模型调试,Model Debugging
所有的模型可增加调试模式,增加时间戳。
代码空间模型链接,Code Space Model Linking
允许固定模型存储在代码空间(code memory)的运行模式,在RAM有限的情况下可释放更多的数据RAM空间。
小-大模型模式,Little-Big Models
结合了小模型(如小于100KB)的高效和大模型(如大于1MB)的高准确性。通过小模型的实时监听做初步判断,通过大模型进行二阶验证,实现更精准的识别。但缺点是二阶验证带来了额外的延时。
端点检测,End-Point Detection(EPD)
识别后对端点的时间戳标记。
TrulyHandsfree:标准的和嵌入式模式下的MEMORY和MIPS估算
Memory需求
MIPS需求和算力需求
TrulyHandsfree, 性能数据
识别率在不同情况下有巨大的差异,如vacabulary size, vocabulary words, grammar specification, noise conditions, 口音或者是距离因素等。
TrulyHandsfree在高噪音环境下或原厂环境下均拥有优秀的性能。如下的图标分别展示了在单唤醒词在不同模型尺寸下的识别率曲线,如80KB, 250KB和1MB-
用户录入的固定唤醒词识别率(Enrolled Fixed Wake Word Accuracy) -
TrulyHandsfree 技术规范
本文分享自 SmellLikeAISpirit 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!