Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >令人激动的语音UI背后

令人激动的语音UI背后

作者头像
半吊子全栈工匠
发布于 2018-08-22 01:39:27
发布于 2018-08-22 01:39:27
1.5K0
举报
文章被收录于专栏:喔家ArchiSelf喔家ArchiSelf

亚马逊Echo和Echo Dot智能音箱获得了成功,它已经使语音命令(通常称为语音UI或语音UI)出现在了新技术产品中。在每一部智能手机和平板电脑上,大多数新型汽车上,以及快速增长的音频产品中,都有这个功能。最终,大多数家用电器,音频和视频产品,甚至像健身跟踪器这样的可穿戴设备,最终也都会有语音命令功能。

所需信号(用户的声音)与噪声(任何其他声音)的比率越好,语音UI系统越更可靠地工作。

现在,数以百万计的语音UI产品已经出现,开始看到消费者对这些设备的预期——以及满足这些期望的挑战性。有限的成功以及更原始的语音命令产品表明,除了了解唤醒词,比如"Alexa"或者"OK Google",消费者不愿意适应这些产品可能对他们的其他要求,比如按下按钮叫醒设备,或直接进入远程控制。至少在家里,消费者期望一个语音UI产品来响应来自房间的指令,如果可能的话,甚至是来自不同房间的指令。无论房间的声学特性如何,不管产品放在房间的哪个位置,都期望可靠的声音识别,希望语音UI即使在中等噪音的环境噪声下也能工作。

虽然先进的语音识别系统依赖于基于互联网的计算能力,但语音UI系统的大部分性能取决于系统接收的语音信号质量。"garbage in, garbage out",同样适用于这些系统,就像它适用于任何其他技术一样。对噪音(任何其他声音)所需信号(用户的声音)的比例越好,语音UI系统就越可靠。

语音UI系统使用多个麦克风接收指令,声音识别系统的准确性很大程度上取决于这些阵列是否能够专注于用户的声音,以及拒绝不必要的刺激,如环境噪声或设备本身发出的声音。对于优化这些阵列和控制算法的大多数研究都是开发这些产品的公司密切关注的,这使得产品开发者较少。

让事情变得复杂的是对麦克风阵列设计的不熟悉。 虽然无数的工程师拥有扩音器设计和应用方面的专业知识,但在麦克风上经验要少得多——尽管大多数工程师的耳朵通常能够对扬声器的问题有一个粗略的概念,但是要评估麦克风的性能则要困难得多。 当一个阵列的麦克风数量成倍增加时,挑战就变得越来越复杂。 现在,工程师必须确定哪些类型的麦克风最适合阵列使用,使用的麦克风数量,以及放置的物理配置。

然后需要一个处理算法,使麦克阵列能够识别用户声音的方向,并在拒绝其他声音的同时专注于这个声音。许多这样的算法都是可用的,但所有的算法都必须优化,以适应麦克风的性能,阵列的大小和配置,以及安装外壳的声学效果。

语音UI中使用的麦克风

在语音UI产品中使用的几乎都是单音麦克风。MEMS(Micro Electrical Mechanical Systems)在设计语音UI产品的麦克风阵列中有许多优势:

小尺寸: MEMS通常每边不超过5毫米,因此可以在一个小的产品中安装多达7个麦克风。表面安装设计进一步减少了他们的痕迹。

低成本: 随着产品中麦克风数量的增加,成本成为一个重要的考虑因素。 MEMS集成电路往往是廉价的,它们也可以与具有PDM (脉冲数字调制)端口的处理器直接接口,而不需要昂贵的A/D转换器。

一致性: 麦克风阵列的可预测功能要求阵列中的多个指标匹配良好。由于 MEMS麦克风的制造采用了一个完全自动化的过程,就像用来制造IC一样,所以单元间的一致性通常是好的。

在语音UI产品中使用的大多数麦克风都是全向的,可以从各个方向接收声音。 由于麦克风阵列的方向性是通过一种算法而不是通过麦克固有的方向性来构建的,所以使用全向麦克可以让算法在处理各种麦克风信号时在拾取波束的方式上具有完全的灵活性。

全向麦克的另一个好处是,它们比定向麦克风更能满足频率响应。这种特性降低了算法的处理负载,因此,在产品组装中的方向不再是问题。在可用的MEMS 麦克风选择中,麦克风阵列设计师可以从敏感性、噪声、频率响应匹配以及数字和模拟输出等一系列功能和特性中进行选择。

语音UI算法的组件

语音UI产品中的算法实际上是几种算法的集合,每个算法都有一个特定的功能,可以帮助麦克风阵列专注于用户的声音,忽略不需要的声音。下面是语音UI中通常算法的简要描述。

触发/唤醒词

语音UI系统使用一个指定的唤醒词,如"Alexa"或者"OK Google"——用户使用这个单词来激活语音UI设备。这个唤醒词会有挑战的,因为设备必须立即在设备上使用自己的算法进行识别,而使用互联网资源会造成太多的延迟。设备必须在某种程度上保持活跃,因为它必须不断地监听唤醒词。

选择一个合适的唤醒词,对操作语音UI设备至关重要。唤醒词必须足够复杂,以便在麦克风输出处产生一个独特的波形,该算法可以很容易地区分出正常的语音,否则成功识别的百分比可能低得令人无法接受。唤醒词不能是通常使用的单词或短语,否则误唤醒的频率可能高得令人无法接受。它也不应该太长,因为越长的短语,用户就越有可能认为这个设备很糟糕。通常,用三到五个音节的唤醒词是最好的选择。

在评估唤醒词算法的性能时,需要考虑两个主要因素。首先,当没有唤醒时,算法多久会指示一个唤醒? 这被测量为每小时误唤醒。其次,算法在背景噪声的存在下能否正确地检测到唤醒词?这是以识别率来衡量的。

大多数唤醒算法都有不同的尺寸。 小型的算法可以减少内存和CPU处理,但会有多一些的错误; 大型算法需要更多的资源,但是犯错更少。模型也是可调整的,允许产品设计师使他们更严格(更少的误唤醒但较难唤醒)或者更宽松(更多的误唤醒但更容易唤醒)。大多数产品设计师选择更加严格的调整,因为当用户在发布命令时往往会接受偶尔重复自己的话,但他们对误唤醒却不那么宽容。

"选择一个合适的唤醒词以纳入算法,是唤醒词识别的关键,从而操作语音UI设备。"

假唤醒是通过播放数小时的口语内容并计算误唤醒的频率来衡量的。在这个测试中,不同的模型大小在性能上的差异变得很明显。图1比较了用于不同调优的小型、中型和大型唤醒词模型的性能。 在这种情况下,每小时不超过一次的错误触发是一个合理的目标。 这个小模型只能通过图左边两个最严格的调整来实现这一点。 中型和大型模型在更广泛的操作范围内实现这一目标。

图1: 用小型、中型和大型算法模型测试每小时误唤醒,左边更严格,右边更宽松

在测量噪声唤醒算法的性能时,研究表明,在环境噪音的存在下,决定唤醒识别率的主要因素是在麦克风上测量的信噪比(SNR)。"信号"表示人的声音对着麦克风的声音有多大,而"噪音"是背景噪音的水平。 在测试中,使用"babble"噪音来模拟家庭中典型的噪音和波形。 图2显示了三个模型大小的图形,所有模型已经调整到每小时不到两个错误的误唤醒。X轴代表 SNR,其较高的信噪比向右。 Y轴是识别的概率。 在大多数情况下,算法在1或2分贝内有相同的性能。

我们应该注意到,相对于大多数音频播放设备的SNR为80至120分贝,10分贝左右的信噪比似乎是不可接受的。 然而,在语音UI应用程序中,用户的声音通常只比周围噪音大几分贝,如下图所示,10到20分贝的 SNR 可以在语音UI应用程序中提供的结果。 因此,尽管在音频播放系统中同样的增长在主观上是不易察觉的,但SNR增加2分贝可以显著提高语音UI的性能,。

"... SNR 增加2分贝可以显著提高语音UI的性能,即使同样的增长在主观上在音频播放系统中是不明显的。"

图2: 触发单词检测作为 SNR 函数的性能。 三种不同模式测试,模型越大,性能越好。

DOA 波达方向

一旦唤醒词被识别,下一步就是确定用户声音的到达方向。 一旦确定了方向,DOA算法就会告诉beamformer算法把注意力集中在哪个方向。

DOA算法的核心功能是检查阵列中不同的麦克风发出信号的相位或时延关系,并利用这些信息确定哪一个麦克风首先接收声音。 然而,这个任务比看起来要复杂得多。 由于房间里的墙壁、地板、天花板和其他物体的反射,用户的声音也会从其他方向传来,而不仅仅是直接从用户的嘴里传来。 最初的声音是所有的 DOA确定所需要的,后来的反射必须被过滤掉。 为此,DOA 算法包括优先逻辑,它将较大声音的初始到达和较为安静的反射分开。这个功能通过电子方式消除了房间内的声音反射,如果仔细调整,这个算法甚至能够拒绝附近表面的反射,比如在一个智能音箱的后面有一堵墙。

通过对环境噪声水平的自动调整,增强了 DOA 算法的运算效果。该算法测量房间内的平均噪音水平,并且只有当输入的信号至少超过环境噪声一定的分贝时,才会重新计算用户的发声位置。 这样,系统就可以锁定一个特定的方向,而不会被相对较低的噪音分散注意力。

测量 DOA 算法的准确性,需要通过将麦克风阵列周围的8个扬声器均匀地分布在半径1米的圆上,以此来测量 DOA 算法的准确性。 所有8个扬声器都播放漫反射场背景噪音,而一个扬声器除了发出噪音之外还有唤醒词。声音水平固定在60 dBa, 测量的麦克风和漫反射场噪音的水平是不同的,如图3所示。

图3: 矩阵显示波达方向测试的结果。

行索引对应声音来自的实际方向; 列索引表示 DOA 算法返回的方向。

将矩阵压缩成一个数字,代表算法在特定噪音水平上的整体精确性。 在 DOA 算法中,根据它们与正确值的距离来权衡错误,因此使用的单数结果是某个 SNR 的度数误差。图4显示DOA算法在一个非常小的平均误差下运行良好。

图4: DOA 综合结果。

X轴代表了唤醒词的信噪比,Y轴是偏差误差。

DOA算法在大于0 dB的SNR上开始提供有效性能,SNR的精确性能在5dB以上。

AEC 回声消除

在一个集成了扬声器或汽车音响系统的语音UI设备中,干扰语音指令的一种噪音来源是扬声器本身,它可以播放声音反馈、音乐、收音机等等。 语音UI设备必须在麦克录音时减去扬声器发出的声音。

这看起来可能很简单,就像将扬声器的反相信号与来自麦克风的信号混合,稍加延迟,以弥补声音从扬声器传到麦克风所需的时间。 然而,这个过程仅仅是一个 AEC 算法的起点; 它不足以处理现实世界应用程序所带来的许多复杂问题。

第一个复杂因素是,扬声器、用于平衡扬声器的 DSP 和阵列中使用的麦克风可能被具体材料改变了波形。 幸运的是,可以将麦克的输入信号与原(dsp)输入信号进行比较,并计算出修正曲线。

然而,也受到声波反射的影响。 这些反射可能数以千计,在一个大的起居室里,他们可能在发言者发出直接声音后一秒钟内后到达麦克风。根据房间模式和房间家具的吸收效果,反射谱含量将不同于说话者直接声音的内容。 这些影响在每个环境中都会有所不同,而且随着人们和宠物在房间里走动,或者随着车内乘客数量的变化而改变。

为了从麦克风信号中减去足够多的声学回波以达到可接受的信噪比,AEC 算法必须在一定误差范围内寻找与材料相匹配的声音(以弥补声学引起的波形变化) ,并且在一个定义的时间窗口上对应于预期的混响时间。 由于阵列中的麦克风之间的距离,每个麦克风接收到一组略微不同的回声和来自扬声器的不同直接声音,所以实现最大的信噪比需要对每个麦克风进行单独的 AEC 处理。

回波消除器的性能通常由其"回波返回损耗增强"或 ERLE 来定义。 这是增益的减少,回波消除器能够减少在麦克风上的扬声器信号。 回波消除器一般可以取消至少25分贝,具有良好的性能,最好的可以取消超过30分贝。

AEC寻找反射的时间被称为"回声尾长" 回波尾长度越长,可以取消的反射越多,算法的性能就越好。 然而,更长的波尾需要更多的内存和CPU。图5显示了回波返回损失作为尾长的函数。 这种测量是在一个半消声室中进行的。可以看到,大部分都是通过200毫秒的尾长和较长的波尾来实现的。

图5: 回波消除器的性能作为尾长的函数。

测量是在一个半回声的声音室进行,表明200毫秒之后几乎没有改善。

半回声的房间是相当容易处理,但不代表真实世界的使用。 图6显示了回波消除器在逐渐增加的混响室中的性能。 现在对于更长声尾的需求是显而易见的,最大的反射空间可以从更长的回声尾中受益。

图5: 4个房间中的回声消除测试

当扬声器以线性方式执行时,AEC 算法的性能更好。 如果扬声器在很大的程度上表现出失真,那么将产生失真谐波,而 AEC 将不会认识到这些是原反射,因此不能取消它们。 扬声器的总谐波失真(或 THD)是其线性程度的度量。 THD 占信号水平的百分比越低,说话人的行为就越灵活。 由于 AEC 无法取消,扬声器的失真将出现在 AEC 的输出中。

例如,如果扬声器有1% 的 THD,那么失真组件将比信号水平低40分贝。 如果回波消除器有30 dB 的 ERLE,那么 THD 为1% 是可以接受的。 现在考虑一下10% 的 THD。 在这种情况下,失真组件是低于信号水平20分贝,这将会淹没 AEC。 3% 的 THD 将产生30分贝以下的失真,这仍然会影响 AEC。

重要的是要测量整个系统,包括扬声器和麦克风。 仅仅测量扬声器的声学输出是不够的,因为用于许多语音UI产品的外壳可以直接从扬声器传到麦克风上。 考虑下一页图7所示的图。 这个图表显示了用外部参考麦克风测量扬声器的 THD。 每一行代表一个不同的播放级别。 对于每一个回放级别,记录测量的 SPL 和在整个音频频谱的多个频率的 THD。 图上的圆形气泡表明,测量的 THD 只出现在 THD 高于3% 的水平。 扬声器的行为是线性的,只有在很大的程度时,才会在较大的扭曲。

图7: 利用外置麦克风测量扬声器失真情况。 扬声器是线性的,只有在高SPL时才会扭曲。

这种测量方法现在正在重复使用机载语音接收麦克风,它位于一个典型的带有语音UI的"智能扬声器"的外壳顶部。 在这种情况下,如图8所示,在500至800赫兹的范围内,与500至800赫兹的麦克风结合在一起,这是不可接受的; 必须重新设计,以增加刚度和更好的隔音效果。

图8: 用产品本身的麦克风测量同一个扬声器的畸变,声音会在500至800赫兹之间的失真。

Beamforming 成形

多麦克风阵列常用于语音UI系统的原因是,多个麦克风可以使阵列变得方向化ーー专注于来自特定方向的声音。 这个过程被称为成形过程。 它有助于隔离用户的声音,同时拒绝来自其他方向的声音,提高了 SNR。

例如,如果用户在麦克风阵列的一边,而另一边是空调,空调器的声音首先到达用户对面的麦克风,然后到达用户最近的麦克风。 算法使用这些时差来消除空调声音,同时保留用户的声音。

阵列中的麦克风越多,有效的波束形成效果就越好。一个有两个麦克风的阵列取消声音的能力有限,但是一个有多个麦克风的阵列可以抵消来自更多方向的声音。麦克风越少,性能就会随着视角的变化而变化——用户的声音和语音UI产品之间的角度变化而变化。

可以通过动态调整其性能优化 SNR 以形成波束算法。 可以收紧波束宽度,以便更好地关注用户的声音,更有效地拒绝来自其他方向的声音,但语音UI系统将需要评估和调整并确保波束集中在用户身上。 这种努力增加了对系统的需求,因此大多数波束维持一个相当宽的光束。 例如,一个典型的七麦克风阵列的波束宽度相对于DOA而言大约为60度。

图9显示了波束形成消除背景噪音的能力。 上面显示了一个麦克风的频谱。 底部的数字是一个7麦克风的输出。 水平条纹是与语音信号相关的和声,背景的橙色/红色是嘈杂的噪音。 理想的结果将是被黑暗区域所包围的条纹。 在前置波束的测量中,语音被保留下来,背景噪声减少了6到7分贝。这在语音识别方面提供了明显的改进。

图9: beamformer的实现来减少背景噪音, 暗段对应于较低的信号水平。

Noise Reduction减噪

虽然麦克风阵列系统使用方向拾取模式来过滤掉不想要的声音(比如噪音) ,但是有些不想要的声音还可以通过一种算法来减弱或消除,这种算法可以识别它们与所需信号分离的特性,然后去除不需要的声音。 一个减噪算法可以运行在一个单一的麦克风或一个阵列,可以帮助唤醒词识别和提高语音UI性能。 因此,减噪可以用于语音UI信号处理链的多个阶段。

声音命令是暂时的事件,而不是稳定的状态。 任何存在的或重复的声音,都可以从麦克风阵列发出的信号中被探测到并消除。 例如汽车的道路噪音,以及家庭中的洗碗机和暖通空调系统的噪音。 高于或低于人类声音频谱的声音也可以被过滤。

减噪算法已经被广泛使用了很多年,但是大多数都是针对手机应用而不是语音UI优化的。 它们倾向于强调对人类理解最重要的频谱,而不是电子频谱中最关键的声音分离和理解语音指令的系统。 大多数用于手机的降噪算法实际上降低了语音UI的性能。 简单地说,人类听到的东西和语音UI系统不同。

一个衡量降噪算法工作效果的方法是看看它在回波消除器的输出中提供了多少额外的dB信号。 图10显示了 DSP 在频域降噪算法的性能,减少了多达12dB 的残余回波。

图10: 减噪算法对 ERL 的影响。 曲线越高,衰减越大,效果越好。

声音质量的主观提高立即得到了认可,但是它能改善语音识别算法的性能吗? 这需要额外的测量来量化。 图11重现了图2中的那些曲线, 与原始内容相比,噪声减小使曲线向左移动了2分贝。 实验结果表明,该算法提高了语音识别的整体性能。

图11: 减噪算法对 ERL 的影响。 曲线越高,衰减越大,效果越好

这就是对语音UI系统基本原理的理解。 进一步,可以研究不同的麦克风阵列配置和不同的麦克风选择的影响。 在检查了这些效果之后,工程师和产品设计团队可以为产品获得更可靠的性能。

(本文编译自 www.dspconcepts.com的白皮书FUNDAMENTALS OF VOICE UI)


了解了这些语音UI背后的技术之后,来看看我们的产品吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 喔家ArchiSelf 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
让智能音箱胡言乱语、乱下指令,只需要一部手机+一个喇叭
智能音箱近两年走入了很多家庭的生活,成为了娱乐、购物、日程管理、儿童陪伴甚至教育方面的帮手。但是,智能音箱的安全问题也日益受到关注。继今年 11 月份,有研究使用激光黑掉智能音箱后,又有新的破解方法来了。这回直接用定向声波。
机器之心
2019/12/24
9220
声源定位系统设计(一)——MVDR波束形成算法「建议收藏」
下一篇:声源定位系统设计(二)——MUSIC算法以及Python代码实现将讲述本篇博客中算法的代码实现以及另一种波束形成算法。
全栈程序员站长
2022/11/09
4.7K0
声源定位系统设计(一)——MVDR波束形成算法「建议收藏」
超低功耗解决方案如何赋能Always-on语音交互系统
消费者越来越需要可以随时通过语音控制的产品,可以与数字世界更加安全的和自然的交互。
用户6026865
2020/07/06
1.6K0
超低功耗解决方案如何赋能Always-on语音交互系统
谁说偷窥一定要趴墙头?这个系统可用声波「看见」墙后物体
我站在墙前,想看到拐角处我视线范围之外的事物,除了伸长脖子或者走过去,还有别的方法吗?
机器之心
2019/06/23
1.3K0
科大讯飞李伟:人机交互如何选择合适的「耳朵」
AI 研习社按:人工智能当前正处于爆发阶段,语音交互作为人工智能的重要组成部分正在各行业全面的落地,在人机进行语音交互的过程中,机器需要通过耳朵实现听觉的作用。
AI研习社
2018/07/26
1.3K0
科大讯飞李伟:人机交互如何选择合适的「耳朵」
智能语音交互中的麦克风阵列技术
近年来,随着语音识别技术的发展成熟,语音交互越来越多的走进我们的生活。从苹果手机Siri助手的横空出世开始,各大公司纷纷效仿开发自己的语音助手和语音识别平台,手机端的近场语音交互日趋成熟。后来Amazon发布Echo智能音箱,开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互,Echo音箱的语音交互支持距离更远,交互更加自然便捷,它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果,随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。
DancingWind
2019/08/01
10.9K0
智能语音交互中的麦克风阵列技术
全球顶级语音技术比赛中获双料冠军,这家中国公司靠什么?
腾讯、西工大、CMU等国内外机构是这场对决的主办方,两项比赛内容是语音行业的前沿研究,针对真实视频会议场景。
量子位
2021/07/19
5880
日本富士通:我们研制出了世界首款小型免提式语音翻译器 | 黑科技
据悉,近日富士通实验室对外表示,他们研究出了世界上首款胸卡大小的免提式语音翻译器。 在与患者交流病情的同时,医院的医务人员手中总是有很多事情要做,伴随着国际化,患者常常不是本国人,在这样的情况下,交谈
镁客网
2018/05/30
4780
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
AI科技大本营
2018/04/27
1.1K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
Yobe推出AI系统,分离人群中的语音,错误率降低85%
现在智能助手和支持语音的扬声器比以往更受欢迎。据Voicebot称,约有4730万美国成年人使用智能音箱,超过一半的智能手机用户(52%)表示他们在移动设备上使用语音助手。但普及并不一定转化为准确性。但从人群中隔离语音时,它们往往效果很差。
AiTechYun
2018/12/05
5160
浅析硬件“好声音”:麦克风技术指标及选型指南
这类设备中都集成了麦克风和喇叭等电声器件,其中麦克风用于识别用户的声音,喇叭用于播放设备对用户指令的反应。麦克风的性能是影响语音唤醒率高低的重要因数,而喇叭的性能会影响打断唤醒率和用户的主观体验。接下来将分两篇文章对麦克风和喇叭的一些主要性能参数进行解析,给大家在产品设计时选择声学器件提供一些帮助。
硬件大熊
2022/06/23
3K0
浅析硬件“好声音”:麦克风技术指标及选型指南
语音识别现状与工程师必备技能
作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别
用户1737318
2018/06/05
2K0
声学相机:用“眼睛”听见声音的奥秘
说到终极武器,它的核心秘密是“机器听觉”。我们知道人类的听觉系统犹如一台精密的生物仪器:双耳通过时间差与强度差的微妙感知,能瞬间分辨出雨滴敲窗与孩童笑声的方向;而机器听觉依赖麦克风阵列与算法模型,虽能精准识别语音指令,却难以像人类般在交响乐中锁定单簧管音轨,或在装修工地中区分电钻与锤击声。这种差异源于感知维度的局限——人类听觉融合了经验记忆与情感共鸣,而机器仅能处理数字化的声波参数。正因如此,​声音可视化技术应运而生,成为跨越物种感知鸿沟的桥梁。它通过波束成形聚焦声源、扫描成像还原三维声场,将声波的振幅、频率等参数转化为动态热力图或频谱动画。例如,声学相机能通过麦克风阵列同步接收多个通道的声音信号,依据相控阵波束形成原理计算得到设备基准发射面上的声场分布云图。测量中同步记录设备的可见光图像,以其为背景,通过几何配准将声场分布彩色等高线云图与可见光图像叠加显示,获得声学成像结果。声学成像结果中直观显示了声源空间位置、强度和频谱等特征。
黄成甲
2025/04/01
3940
音频增益响度分析 ReplayGain 附完整C代码示例
人们所熟知的图像方面的3A算法有: AF自动对焦(Automatic Focus) 自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure) 自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance) 白平衡的本质是使白色物体在任何光源下都显示白色 与之相对应的音频方面的3A算法是: AGC自动增益补偿(Automatic Gain Control) 自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者
cpuimage
2018/04/16
2K0
腾讯AI Lab语音技术中心应用与研究介绍
“CCF语音对话与听觉专业组走进企业系列活动”第十期之“走进腾讯”研讨会于上周六圆满闭幕,本次研讨会由上海交通大学钱彦旻副教授主持,并邀请到四位专家介绍腾讯语音及对话领域的最新成果,分别是: 腾讯AI Lab语音技术中心副总监苏丹博士,腾讯AI Lab资深算法专家卢恒博士,腾讯语言算法专家黄申博士,腾讯多媒体实验室高级总监商世东。 其中,腾讯 AI Lab语音技术中心副总监苏丹博士作了题为《腾讯AI Lab语音技术中心应用与研究介绍》的学术报告,主要介绍了腾讯AI Lab语音技术中心的主要应用落地,分
腾讯技术工程官方号
2020/09/14
3K1
ZLG深度解析——语音识别技术
语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。
刘盼
2019/05/17
2.5K0
ZLG深度解析——语音识别技术
Alango - Speech Recognition Enhancement
穿戴和听力设备(wearable and hearable)设备需要永远在线(Always-on),这对于用户来说非常重要。我们不难想象出其重要性,比如外科医生(surgeon)在外科手术时佩戴智能眼镜,或者是建筑师在勘察施工现场的时候与电气工程师交流等等,所有这些用户场景都需要经过Alango 语音识别增强的(Speech Recognition Enhancement)自动语音识别技术。
用户6026865
2020/04/27
6460
深度学习在AEC中的应用探索
我们可以想象为两个人通电话,从左框看到的远端信号(Far-End)是指对方传过来的信号x(n),而右框的近端信号(Near-End)指着本地麦克风收到的信号y(n)。
LiveVideoStack
2019/12/17
3K0
深度学习在AEC中的应用探索
方案:汽车NVH与噪声定位系统
NVH(Noise、Vibration、Harshness噪声、振动与声振粗糙度)是衡量汽车制造质量的重要参数,可分为发动机NVH、车身NVH和底盘NVH三大部分。NVH直接决定着驾乘汽车的舒适度,有统计资料显示,整车约有1/3的故障问题是和车辆的NVH问题有关系,而各大公司有近20%的研发费用消耗在解决车辆的NVH问题上。
SHOUT
2022/05/31
2.3K0
方案:汽车NVH与噪声定位系统
基于麦克风阵列的现有声源定位技术有_高斯滤波 椒盐噪声
目前基于麦克风阵列的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation,TDE)的声源定位技术。
全栈程序员站长
2022/09/20
1.7K0
推荐阅读
相关推荐
让智能音箱胡言乱语、乱下指令,只需要一部手机+一个喇叭
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档