投中网讯,12月26日,探境科技在北京举行了“AI算法新技术发布会”, 会上探境科技的技术副总裁李同治详细介绍了最新的音旋风612语音识别方案。
据介绍,音旋风612语音识别方案是在语音识别芯片音旋风611基础上进行的升级,主要有三个特点:一是降低了麦克风阵列对麦克风的指标要求,无形中节省了硬件成本;二是提高了高噪声环境下识别率;三是提升了有效算力。
目前家居环境下做语音识别面临的几个挑战:第一,低信噪比,这也是面临的最大挑战。“信噪比是将目标信号与干扰信号强度的比值取对数后乘以固定比例得到的。一般将信噪比低于15dB的称为噪声环境,0dB意味着语音信号和噪声信号强度一样,我们人耳识别起来也比较费力。我们的声音还有一个特点,强度是随着距离的平方倍衰减的,因此在空气中传播时衰减非常快,5m的距离和1m的距离比,声压强度会降低25倍,换算成分贝数会低27分贝,如果到了10m的距离声压强度会低100倍,声压会低40分贝。”
第二,非稳态的噪声影响。比如做饭的时候发出现叮叮咣咣的声音,或者交响乐里突然的节奏变化和声音强度的突变,带有突发性和不可预见性。
第三,多声源的问题。传统的信号处理算法的原理是增强波束内的信号强度,当干扰源方向与目标声源方向接近的时候,传统的处理算法无能为力。
对此,探境科技推出了基于深度学习的AI降噪算法。“我们将一批信噪比在3dB左右的语音数据送到一家知名互联网公司的云端识别引擎做了测试,降噪后比降噪前的识别率能够提升30%以上。”
除此之外,探境还设计了专门用来做语音识别的高计算强度的神经网络——HONN。“首先从参数上来看,高强度神经网络的参数量不大,大概是传统DNN算法的五分之一,因此我们用更少的参数量和更少的存储达到了更好的效果。与存储的需求刚好相反,高强度计算神经网络的算力需求量超过几百兆OPS,而DNN只有个位数兆的计算强度,它们之间差了30倍。从识别率上反映了这个差异,在安静的环境下两者的差异不是很明显,但是一旦降低了信噪比,两者的差异明显可以体现出来。”
探境科技
成立于2017年,是一家“语音、图像结合的端云一体化“的AI芯片公司。“有些时候大家还是希望做一些在线的连接,所以我们会把离线和在线一起提供给大家,做一个整体的解决方案。”
语音这条产品线上,探境科技的旗舰产品是711/712,主要面对高端自然语言识别的场景,除此之外还布局了单麦和双麦的611和612,支持降噪的631,可用于可穿戴设备311以及精简命令词321。
图像产品方面,探境科技CEO鲁勇在会上透露,“已经流片成功”。
他在会上还介绍,到今年年底,探境科技已经拥有30家合作伙伴,涉及到灯具、热水器、垃圾筒、净化器等多种智能家居品类, 公司的语音识别方案也实现了“百万级产品出货”。
领取专属 10元无门槛券
私享最新 技术干货