前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >科大讯飞李伟:人机交互如何选择合适的「耳朵」

科大讯飞李伟:人机交互如何选择合适的「耳朵」

作者头像
AI研习社
发布于 2018-07-26 02:53:40
发布于 2018-07-26 02:53:40
1.3K0
举报
文章被收录于专栏:AI研习社AI研习社

AI 研习社按:人工智能当前正处于爆发阶段,语音交互作为人工智能的重要组成部分正在各行业全面的落地,在人机进行语音交互的过程中,机器需要通过耳朵实现听觉的作用。

近期,在雷锋网研习社公开课上,科大讯飞产品经理李伟为大家科普了当前正热的智能音箱背后的功臣——麦克风阵列,并具体讲解了双麦克风阵列和该方案在各领域的广泛应用。李伟也希望借此解决大家在语音交互 AI 前端学习上的一些疑问。

视频回放地址:

http://www.mooc.ai/open/course/498

李伟,科大讯飞产品经理,负责麦克风阵列和智能家电领域的语音交互解决方案,曾就职于惠而浦(中国)股份有限公司先后担任软件工程师和智能家电产品经理,重庆邮电大学生物信息学学士,重庆邮电大学软件工程硕士。

分享主题人机交互如何选择合适的「耳朵」——浅谈双麦克风阵列及行业应用

分享提纲

  1. 人机交互的「耳朵」——麦克风阵列简介
  2. 如何选择麦克风阵列——选择麦克风阵列的四要素
  3. 双麦克风阵列简介和行业应用介绍

首先来介绍什么是麦克风阵列,提到语音交互,有一个始终绕不开的话题:智能音箱。众所周知,亚马逊推出的 Echo 一下子带火了整个智能音箱市场,语音交互也开始获得人们的关注,越来越多的消费者开始购买语音交互智能设备。但大家在使用语音交互设备(如智能音箱)时,往往发现不同产品的语音交互效果差别很大,这主要由于智能音箱在听觉设计上采用了不同的麦克风阵列方案造成的,比如最新推出的天猫精灵方糖和叮咚 Mini2。

方糖使用双麦克风阵列方案(左),叮咚 Mini2(右)使用 6 麦克风阵列方案

什么是麦克风阵列?

工业级麦克风阵列,一般是由数十和上千个麦克风按照一定的规则排列组合,主要应用于工业,军工等领域。

消费级麦克风阵列,是对工业级麦克风阵列的大大简化,由于主要考虑成本因素,所以通常消费级麦克风阵列麦克风数量不超过十个。

近些年,随着语音交互方案的成熟,消费级的麦克风阵列开始逐渐普及,本次分享主要针对消费级麦克风阵列。

麦克风阵列(以下均指消费级)的作用

麦克风阵列主要模拟人耳的听觉作用,人的耳朵不仅可以听到声音,还具备分辨声源类型和方向的能力。这样,我们就可以选择听到喜欢的声音,如在办公室,当我和同事交流的时候,会忽略周围其他的声音。其实麦克风阵列就是机器的耳朵,不仅采集音频信号,还为了更好的声源辨别和噪音过滤,从而保证人机交互的效果。

由于人耳具有十分复杂的结构,麦克风阵列(尤其是消费级麦克风阵列)很难达到人耳的辨别和调整能力。目前,麦克风阵列主要具备四大功能

声源定位:准确来说,麦克风实现的是声源侧向,而不是精准的定位,它的主要作用就是侦测到声源的方位以便后续的波束形成。通常声源定位会在语音唤醒阶段实现。

噪声抑制:这里的噪声一般指环境噪音,比如空调吹风的声音,窗外汽车行驶的声音等等,这类噪音通常不会掩盖正常的语音,只是影响了语音的清晰度,麦克风阵列主要依靠波束形成抑制主瓣外的声音干扰来实现噪声抑制的功能。

增益调节:主要解决拾音距离变化的问题,由于远场的交互距离可大可小,所以声源发声的大小也不同,比如人离麦克风较远或人发出的声音较小的时候,麦克风拾取的声源信号就会比较小,这时需要对麦克风收集的信号进行放大处理,从而提高语音识别的准确性。当人凑着麦克风讲话的时候,或者外界发出的声音较大的时候,麦克风采集的信号较大,甚至超出麦克风可以采集到的范围,这时需要麦克风阵列进行相关的处理,适当的衰减声源信号,从而达到拾取声源的有效平衡。

回声消除:这里的回声并非传统意义上的回声,它指的是语音交互设备自己发出的声音,比如音箱在播放音乐的时候,用户想打断它,此时,回声指的是音箱本身播放音乐的声音。如果麦克风阵列没有回声消除功能,那么麦克风采集的声音就包含人发出的指令声音和音乐声音,在这种情况下,显然会对在语音识别的效果产生干扰,回声消除的目的就是要消除音乐的声音而保留用户的人声。

麦克风主要可以抑制四类噪音:分别为混响,背景噪音,人声干扰和回声

混响:人讲话的声音被各种障碍物反射产生的声音,如被墙壁,地板,天花板等障碍物反射,混响的声音通常距离声源发出的声音时间间隔较短,人耳主观上感觉不到,但机器在采集的时候往往可以采集到。

人声干扰:为什么要注意人声干扰?由于实际上麦克风阵列在解决噪音干扰的时候,人声干扰会对麦克风的识别效果产生最大的影响,因为往往做人机交互的时候,麦克风阵列收集的声源的声音就是人声。

噪声和回声前面刚刚介绍过。

实际上,当前主流的智能音箱采用的麦克风阵列列方案是不太一样的,比如亚马逊的 echo 最早使用的是 6+1 麦克风方案;Google Home 使用的是双麦克风方案;叮咚音箱使用的是 7+1 麦克风方案;阿里去年推出的天猫精灵采用的是 6 麦克风阵列方案。

目前讯飞向外提供三种构型的麦克风阵列,分别是线性,环形和立体阵列。

如何选择麦克风阵列?

根据我近些年与开发者和用户沟通得出的经验总结,选择麦克风阵列通常有四个要素,分别为使用场景,ID&MD 设计,交互链路和产品定价。

使用场景

关于使用场景,我想通过两个例子进行介绍,不少商场正在使用机器人来替代人类进行导购服务,商场周围的环境非常嘈杂(一般能达到 70 分贝以上),这种环境对降噪的要求很高,一般需要选择抗噪能力比较强的麦克风阵列,同时由于人和机器的相对位置变化性较大,所以机器人往往需要具备 360 度的唤醒定位功能,也就是当用户处于机器人的侧面并发出指令的时候,希望机器人可以调转到用户所处的方向,因此在做商用机器人解决方案的时候,通常会选择环形 6 麦或以上的阵列,这样的话,整体抗噪和定位的效果能达到该场景的要求。

第二个例子,如电冰箱这个场景中,由于家居场景比较安静(通常在 40 到 55 分贝左右),该场景对麦克风阵列的抗噪音要求并不是很高,因此可以选择抗噪能力稍弱的麦克风阵列。另外,如冰箱这类家电往往是靠墙放置,因此不需要 360 度的唤醒定位,通常有时候不需要声源定位就可以进行远场拾音。还有一点需要说明,家电产品通常对节能环保要求较高,功耗要求也比较严格。因此选择较少的麦克风阵列可以保证整体的功耗,所以通常在冰箱上会使用双麦阵列方案或四麦阵列方案。

ID&MD 设计

设备植入麦克风阵列时,通常需要对产品的外观和结构件进行开口,这对整体的外观设计和产品都会产生一定的考验,外观上需要结合机器的整体外观,结构上主要看声学整体的效果。

影响声学效果的主要因素,包括麦克风阵列的构型,孔径,孔深,开孔率,声腔的密闭性以及防震防水等,比如图中的无叶风扇,当我们确定了在顶部采用四麦阵列方案之后,就需要考虑如何对这个方案进行优化,对此产品上进行了两点处理:1,在风扇顶部加厚处理,这样可使风扇整体更美观,顶部加厚处理还有助于开孔和加大开孔率,麦克风拾音也更便捷。2,考虑到底部为风扇电机的噪音源,因此将麦克风置于顶部。

交互链路

由于各技术厂商的算法体系不同,在选择语音交互方案时,最好能选择经过前端和云端协同优化的算法,比如讯飞的云端识别会针对自身的麦克风序列的音频数据进行大量的优化,因此在云端和前端的配合上较其他家具备明显优势:整体的响应速度更快,准确性更高,开发周期会更短。而如果麦克风阵列和后端的云端使用不同厂家的方案,那么在后期的响应、协同的配合上、准确性,以及开发阶段的联调和配合上,都会遭遇相当大的考验。

产品定价

麦克风阵列的使用成本通常包括四块:分别为麦克风,模组,喇叭以及其他配件。目前,对麦克风阵列来讲,最大的区别主要体现在麦克风和模组上,比如天猫精灵的方糖音箱采用的就是双麦克风阵列方案,叮咚 mini2 为六麦阵列方案。另外在模组上,六麦阵列要处理六路的麦克风拾取的音频信号,因此在芯片的配置和数模转换的处理上都需要更大的开销,所以从产品定价上来看,可以理解天猫精灵方糖定价为 199 元,而叮咚 mini2 定价为更高的 299 元。

通过上面的四个要素可以总结出,选择麦克风阵列,要核心考虑不同麦克风阵列的特点。目前讯飞常用的麦克风阵列方案主要有双麦阵列方案,环形六麦阵列和双环八麦阵列方案。

双麦阵列方案:采用双麦设计,因此成本和功耗均低且 ID 和 MD 设计简单灵活,但抗噪音干扰较弱。

环形六麦阵列:麦克风数量增加到 6 个,成本和功耗也随之变高,优点是在环形平面上降噪效果好。

双环八麦阵列方案:可进行空间立体的群像拾音,由于麦克风数量众多,导致成本和功耗更高。另外,由于采用立体结构的 ID 和 MD 设计,设计起来相对复杂。

由于双麦克风阵列的性价比较高,因此其使用领域也相当广阔。接下来介绍双麦克风阵列以及行业应用。

双麦克风阵列以及行业应用

目前主流的远场双麦克阵列方案,包括科胜讯的 CX20921 方案和讯飞双麦 DSP 方案。

讯飞双麦 DSP 目前对外提供一套模组方案:

即通过 DSP 芯片和 ADC,Flash 的整合,实现一套完整的交互模组,该模组的特点为集成简单,开发便捷。当用户在使用这套模组的时候,前端麦克风将采集到的音频输入到模组,模组输出 16K 和 32Bit 的数字信号,传给识别端,这样就可形成前端的远场拾音。整体方案支持麦克风的间距在 20 到 120mm,这样在整个 ID 和 MD 的结构设计上会更加灵活。

讯飞双麦阵列芯片方案

科大讯飞支持芯片化的定制方案,该方案基于核心算法处理的 DSP 芯片+讯飞的算法 SDK。方案的主要特性:硬件设计灵活。该方案还存在以下几个特点:高集成封装,这颗 DSP 芯片的高集成封装在尺寸上可达到 1.8*2.1mm,可以应用于手机和穿戴设备上;支持数字麦克风直接接入的方式;由于该 DSP 芯片也是专为手机设计的音频处理芯片,所以整个芯片方案功耗很低。

该方案里植入了讯飞的双麦阵列降噪算法,其中的算法特性见图中的四点描述。

远场拾音:可支持 3 米的远场拾音,在安静环境下可达到 5 到 10 米。

语音唤醒:双麦方案里植入的算法可支持中英文的语音唤醒。另外,由于采用了低功耗的 CNN 唤醒技术,因此在待机唤醒状态下的功率很低。

噪音抑制:可以抑制常见的混响干扰声和环境噪音。

回声消除:近期,科大讯飞在双麦阵列的回声效果上进行了优化,目前可支持全双工立体声的回声消除,且设备本身发出的播报音达到 80 到 90 分贝,该效果通常可满足大多数产品的需求,甚至包括很多音箱的需求。

目前,不少用户都来提关于「双麦阵列唤醒率」的问题,我在这里跟大家解释一下,为什么没有给出唤醒率的具体指标?主要因为唤醒率是根据周围外部环境的因素和麦克风构型,再考虑测试环境的影响会导致实际测试到的唤醒率效果不一样,这就要求在实际评估唤醒率的时候,需要综合考虑外部所有的因素来进行评估。

就目前的应用场景来看,双麦阵列方案已经覆盖到了很多领域,下图为主要领域的产品举例。

机器人领域:使用到语音交互的主要是商用服务和消费级机器人,双麦阵列方案主要应用于陪伴型,消费级机器人以及服务机器人上。

车载领域:目前大多数车载带屏设备都使用基于双麦阵列的交互方案。另外,车载类配件也推荐使用双麦阵列方案,目前市场上使用双麦阵列案例有,讯飞去年推出的小飞鱼智能车载助手。

智能家居场景:先说智能音箱,除了 google Home 外,亚马逊的 echo 以及阿里的天猫精灵都采用了双麦阵列方案,因此在未来的音箱领域,双麦克风方案会受到越来越多的关注,另在冰箱,空调或家庭空调的控制面板中,都有使用双麦方案。

手机及可穿戴设备:苹果 air pod 采用的也是双麦方案,华为更早推出的 B2 手环也是基于双麦的降噪方案。

随着双麦阵列方案的不断优化,应用场景也越来越多,欢迎广大开发者使用讯飞的双麦克风阵列方案(http://www.xfyun.cn/services/line2mic)。

另外,讲师还回答了直播中大家提出的关于「人机交互」和「单麦克风的局限性」的问题。雷锋网 AI 研习社将问答内容整理如下:

Q & A

Q:使用双麦克风阵列方案在人机语音交互中能做到什么效果?

A:家居,汽车,课堂等噪音较少的场景可以使用,户外情况下可用于耳机,手环等穿戴设备,3 米内抗干扰,安静环境下交互距离可达 5 到 10 米;可以满足智能音箱,陪伴机器人在较大音量播放音频内容时的打断效果;实际的评测过程中应尽量采用真实使用场景下的体验和测试,避免在办公室等外界干扰较大的环境或混响大(玻璃较多)的环境中进行测试。

Q:人机交互?

A:人机交互的模式有很多中,这里提到的语音交互属于人机交互的一种,除此之外还包括视觉类的交互和传感类的交互,比如通常使用的家电或消费类电子产品都带有很多传感器,比如触摸手机屏幕,指纹解锁,甚至是通过按键,这类都叫人机交互。未来的人工智能更多的是所有交互的一个智能体,其中跟人类最接近的是语音和视觉交互。可以这样说,人接收到的信息,80% 是通过视觉来接收到的,但人向外传递的信息 90% 通过语音实现。因此视觉和语音会在未来的人机交互中占有很大的比例。

Q:单麦克风的局限性?

A:目前也有很多产品在考虑使用单麦克风方案,可能是从成本上或者是从场景本身(静场场景)来考虑,或是噪音比较小的场景。如果从成本的考虑的话,随着未来产品的不断迭代,双麦阵列会渐渐与单麦阵列的成本差别越来越小,同时双麦阵列可以应付一些突发的情况,所以双麦阵列会逐渐替代单麦克风阵列。

Q:为什么需要麦克风阵列?

A:实际的语音交互需要麦克风阵列,打个比方,如果人类没有耳朵,就不能对外界的声音进行拾取,只能通过眼睛或其他五感(如触觉等)来获取外界信息,这样就缺少了对于外界的听觉感受。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
邓滨:信号处理+深度学习才能实现语音交互
本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。邓滨认为,传统的信号处理与前沿的深度学习技术结合,才能实现准
LiveVideoStack
2021/09/01
7850
智能语音交互中的麦克风阵列技术
近年来,随着语音识别技术的发展成熟,语音交互越来越多的走进我们的生活。从苹果手机Siri助手的横空出世开始,各大公司纷纷效仿开发自己的语音助手和语音识别平台,手机端的近场语音交互日趋成熟。后来Amazon发布Echo智能音箱,开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互,Echo音箱的语音交互支持距离更远,交互更加自然便捷,它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果,随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。
DancingWind
2019/08/01
10.9K0
智能语音交互中的麦克风阵列技术
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
AI科技大本营
2018/04/27
1.1K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
AI科技评论
2018/09/21
1.1K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
业界 | 阿里入局智能音箱,争夺智能家居语音交互入口
机器之心原创 作者:吴欣 亚马逊、微软、三星、谷歌、苹果等公司都在争夺智能家居交互入口的跃进道路上,巨头围猎之下,中国的大小公司所面临的竞争激烈程度可见一斑,而更残酷的可能是,到最后这会是一场 AI 技术之战。 「整个科技的变革带来新一次红利,我们也在思考是否有比触屏更好的交互方式,经过一段时间的研究,我们认为语言是下一代交互的自然方式。」阿里巴巴人工智能实验室负责人浅雪(本名陈丽娟)在发布会上说,「另一方面,智能音箱是一个产品线很长的产品,任何一个环节出现问题,整个音箱的体验都会很差,这是阿里自己做音箱的
机器之心
2018/05/09
1.9K0
业界 | 阿里入局智能音箱,争夺智能家居语音交互入口
语音识别现状与工程师必备技能
作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别
用户1737318
2018/06/05
2K0
出门问问发布四条新品,虚拟助理新增多轮对话功能
记者:王艺 CSDN AI栏目编辑/记者,目前从事【AI创新者】系列人物访谈 合作及投稿请联系wangyi@csdn.net CSDN AI 4月18日报道,出门问问于今日发布四条新品:多场景个人虚拟
用户1737318
2018/06/06
1.2K0
你贴心的智能家庭助手
特大喜讯,京东和科大讯飞联手推出一款智能音箱,它出色的语义理解和分析让它不仅是智能家居的语音控制中心,更是一个有智慧、会交流的人工智能助手。 想象这样的场景,当你回到家,说声“叮咚叮咚,我回来了”,于是,灯自动打开,窗帘自动闭合,空调、加湿器启动,电视自动打开并跳转到你平时最常看的频道,客厅里响起你喜欢的音乐。 你可以直接与它对话,比如“叮咚叮咚,给我讲个童话故事”,“叮咚叮咚,我心情不好,放首快乐的歌”,“叮咚叮咚, 7点提醒我起床”……通过背后的京东微联支持,这款智能音箱获取了数百款智能产品的操控能力。
镁客网
2018/05/25
9700
【AI生态如何从软到硬】专访胡郁:不能把讯飞只看成语音公司
【新智元导读】 6月28日,讯飞开放平台“万物一听”智能硬件新品发布会在深圳举行。本次发布会讯飞最新的硬件产品“MORFEI 麦克风”、二麦DSP芯片降噪方案及光学麦克风与众多开发者和合作伙伴见面。这是讯飞在硬件开放上的一次大动作,科大讯飞执行总裁胡郁表示,我们不能再把科大讯飞仅仅看成是一家语音技术公司,它更是一家平台型的公司,此前胡郁一直强调的“混合正交生态系统”,此次硬件上的开放,正是这一构想的重要组成部分。新智元在大会现场对胡郁进行了专访,请看详细报道。 6月28日,讯飞开放平台“万物一听”智能硬件新
新智元
2018/03/27
1K0
【AI生态如何从软到硬】专访胡郁:不能把讯飞只看成语音公司
业界 | 对话科大讯飞胡郁:人工智能生态不会像互联网时代被几家垄断
机器之心原创 作者:高琳 6 月 28 日,讯飞开放平台「万物一听」智能硬件新品发布会在深圳举行,AI+ 生活的未来场景在发布会上带给人想象力上的无限冲击,科技感十足。科大讯飞执行总裁兼消费者事业群总
机器之心
2018/05/08
6240
业界 | 对话科大讯飞胡郁:人工智能生态不会像互联网时代被几家垄断
视频会议一体机的技术实践和发展趋势
作者 |  伟隆 钉钉蜂鸣鸟音频实验室 算法专家 在混合办公的常态趋势下,远程沟通协作的效率至关重要。然而,远程会议目前依然存在不少影响沟通的问题,比如缺乏会议室拾音和放音设备、软硬件设备不兼容、因远场拾音导致听不清等,这些问题都会消磨与会者的耐心,影响会议效果,让团队逐渐失去讨论的激情。 因此,无论是国外的微软、Zoom,还是国内的钉钉、腾讯会议,都在建立自己的硬件终端生态,期望通过硬件来解决线上、线下混合办公中的拾音问题,比如麦克风、音视频一体机、会议平板等。但即便如此,在线下开会时最常见的一个现象,依
深度学习与Python
2023/03/29
7270
视频会议一体机的技术实践和发展趋势
干货 | 腾讯云智能语音行业落地探索与实践
倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心AI应用产品组担任高级产品经理,负责智能语音相关AI产品,拥有互联网、金融等行业人工智能落地的丰富经验。本文来自倪捷在“2018携程技术峰会”上的分享。
携程技术
2019/04/22
1.4K0
干货 | 腾讯云智能语音行业落地探索与实践
超低功耗解决方案如何赋能Always-on语音交互系统
消费者越来越需要可以随时通过语音控制的产品,可以与数字世界更加安全的和自然的交互。
用户6026865
2020/07/06
1.6K0
超低功耗解决方案如何赋能Always-on语音交互系统
CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术
CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。 2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。 上一期,我们介绍了机器学习、计算机视觉与模式识别两个申报主题,这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。 三、语音技术专
腾讯高校合作
2018/06/15
9530
智能音箱终于秀得起音质了……
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 记得前几年智能音箱刚火的时候,挺想买一个尝尝鲜,不太贵的那种。 智能方面我还算会挑,音质方面可就不太懂了。 于是去找玩音响的朋友问问有什么推荐,哪款音质好一些?结果他的回答让我挺无语的: 音质上没什么可挑的,都是听个响,你就看哪家智能做得好吧。 如今几年过去,情况在变化。 在苹果放弃价格贼贵的HomePod之后,国产智能音箱却开始拼音质了。 华为联合音响品牌帝瓦雷推出高端产品Sound系列,音箱部分极致堆料,智能部分主推搭载鸿蒙,其中最高端型号Soun
量子位
2022/06/02
7900
智能音箱终于秀得起音质了……
Synaptics发布新版智能语音SDK,支持远场人机交互
Synaptics是创新和技术的领导者,一直和市场的领导者保持密切的合作。在手机市场与三星、vivo、OPPO等合作;在PC市场与联想、戴尔、惠普等合作;在车载市场与福特、保时捷等合作。 Synapt
BestSDK
2018/03/02
1.8K0
Synaptics发布新版智能语音SDK,支持远场人机交互
令人激动的语音UI背后
亚马逊Echo和Echo Dot智能音箱获得了成功,它已经使语音命令(通常称为语音UI或语音UI)出现在了新技术产品中。在每一部智能手机和平板电脑上,大多数新型汽车上,以及快速增长的音频产品中,都有这个功能。最终,大多数家用电器,音频和视频产品,甚至像健身跟踪器这样的可穿戴设备,最终也都会有语音命令功能。
半吊子全栈工匠
2018/08/22
1.5K0
令人激动的语音UI背后
如何利用深度学习实现单通道语音分离?
大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:
LiveVideoStack
2019/07/10
3.9K0
如何利用深度学习实现单通道语音分离?
国际多通道语音分离和识别大赛讯飞再夺冠,不知不觉已「三连冠」!
5月4日,有着最难语音识别任务之称的CHiME-6成绩揭晓:科大讯飞联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道语音识别两个参赛任务上夺冠。
新智元
2020/05/19
1.9K0
国际多通道语音分离和识别大赛讯飞再夺冠,不知不觉已「三连冠」!
我们拆了一款将ChatGPT“落地”的AI语音交互机器人,八核A7全志R58主控
视频版本拆机:【60块钱,垃圾佬的第一台机器人,国产8核CPU全志R58】 https://www.bilibili.com/video/BV1Qk4y177ja/?share_source=copy_web&vd_source=6ec797f0de1d275e996fb7de54dea06b
阿志小管家
2024/02/02
2050
我们拆了一款将ChatGPT“落地”的AI语音交互机器人,八核A7全志R58主控
推荐阅读
相关推荐
邓滨:信号处理+深度学习才能实现语音交互
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档