CoNNear是具有卷积和跳过连接的全卷积编码器-解码器NN,可将音频输入映射到时域中不同耳蜗部分(N CF)的201 BM振动输出。
a,b,具有(a)和不具有(b)上下文的CoNNear体系结构。最终的CoNNear模型具有四个编码器和解码器层,使用上下文,并且在CNN层之间包括tanh激活功能。c,模型训练和评估程序的概述。作为参考,对语音语料库的分析性TL模型仿真用于训练CoNNear参数,而模型的评估是使用耳蜗力学研究中普遍采用的简单声学刺激进行的。
将卷积神经网络与计算神经科学相结合,创建了一个模拟人类耳蜗力学的模型。在过去的几十年中,语音和语音识别技术取得了长足的进步。例如,通常由基于电话的代理为客户提供服务。而且,智能手机上的语音识别和响应系统已经无处不在。但是它们都具有一个共同点,那就是尽管它们看起来很像,但它们都不是实时操作的。每个都基于处理所听到内容的硬件和软件。在这项新的工作中,研究人员建议当前设备的问题在于必须完成的计算所涉及的复杂性。
为了解决这个问题,他们创建了一个模拟人类听力的模型,该模型基于将卷积神经网络的最佳功能与计算神经科学融合在一起。人类的听力来自耳朵的各个部位。声音进入耳道并撞击鼓膜。耳膜响应振动,将信号发送到内耳的骨骼,从而在耳蜗内的液体中产生波纹。那种液体搅动着耳蜗内的毛细胞。毛细胞的运动会刺激离子通道,进而产生发送到脑干的信号。
研究人员创建了一个AI系统,该系统被教给识别声音,然后以类似的方式对其进行解码。然后,他们将系统连接到基于人体解剖学的模型。他们将他们的系统命名为CoNNear-耳蜗的工作模型。测试表明,该系统能够将20 kHz采样的声波波形实时转换为耳蜗基底膜波形,大大超越了最先进的传统系统。CoNNear的耳蜗功能比目前的助听器技术快2000倍。研究人员认为,他们的发现可能为新一代类人听力或增强的听力和语音识别设备奠定基础。
领取专属 10元无门槛券
私享最新 技术干货