首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

重磅丨直击“人机大战”第二轮:声纹识别百度小度1:1战平人类,比赛的背后究竟发生了什么?

如果说在上一轮人机大战的人脸识别对决中,由于小度对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣,那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平,但对于AI 界的意义却似乎更大。 原因有两点:一、公认实力顶尖的对手;二、业界公认困难的比赛内容。 在对手上,此次迎战百度小度的是名人堂公认最擅长声音辨别的选手孙亦廷,他辨别声音细节的能力在名人堂无出其右,能通过水球从0~70米高空坠地破碎的声音,来准确辨别水球下落时的高度。这相当于在一根70米长的琴弦上拉奏任意位置,他都通过音高准确辨别拉弦的位置,甚至

05

Nature子刊:灵活的语音皮质编码可增强与任务相关的声学信息的神经处理

语音是我们日常生活中最重要的声音信号。它所传递的信息不仅可以用于人际交往,还可以用于识别个人的身份和情绪状态。最相关的信息类型取决于特定的环境和暂时的行为目标。因此,语音处理需要具有很强的自适应能力和效率。这种效率和适应性是通过早期听觉感觉区域的自下而上的物理输入处理和自上而下的听觉和非听觉(如额叶)区域驱动的自上而下的调节机制之间的积极相互作用实现的。因此,交互语音模型提出对输入进行初始自下向上的处理,激活声音的多种可能的语言表示。同时,高水平的语音识别机制会对这些相互竞争的解释产生抑制作用,最终导致正确解释的激活。因此,自上而下的调节被认为改变了自下而上的语音处理。然而我们尚不清楚这些自顶向下的调制是否以及以何种方式改变了声音内容的神经表征(以下简称语音编码)。这些变化发生在皮层处理通路的什么部位也不清楚。

03
您找到你想要的搜索结果了吗?
是的
没有找到

人民大学提出听音识物AI框架,不用人工标注,嘈杂环境也能Hold住,还可迁移到物体检测

明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不用人工标注,也能让AI学会听音寻物。 还能用在包含多种声音的复杂环境中。 比如这个演奏会视频,AI就能判断出哪些乐器在发声,还能定位出各自的位置。 这是中国人民大学高瓴人工智能学院最近提出的新框架。 对于人类而言,听音识物是一件小事,但是放在AI身上就不一样了。 因为视觉和音频之间对应关系无法直接关联,过去算法往往依赖于手动转换或者人工标注。 现在,研究团队使用聚类的方法,让AI能够轻松识别各种乐器、动物以及日常生活中会出现的声音。 同时,这一方法还

04

李沐:从头开始介绍机器学习,眼花缭乱的机器学习应用

【新智元导读】亚马逊的李沐也要做深度学习课程了,名字叫《动手学深度学习》,侧重代码和实现。第一课的直播9月9日开始。昨天,他在知乎写了下面这篇文章,从头开始介绍机器学习。“精确定义机器学习就像定义什么是数学一样难,但我们试图在这章提供一些直观的解释。” 本书作者跟广大程序员一样,在开始写作前需要去来一杯咖啡。我们跳进车准备出发,Alex掏出他的安卓喊一声“OK Google”唤醒语言助手,Mu操着他的中式英语命令到“去蓝瓶咖啡店”。手机这时马上显示出识别的命令,并且知道我们需要导航。接着它调出地图应用并给出

05

学界 | MIT最新:机器学习首次模仿大脑处理声音,能辩歌词和歌曲分类

大数据文摘作品 编译:大茜、笪洁琼、云舟 你是否对于Spotify之类的软件产生过这样的疑问:“Spotify,你放音乐的时候在想什么?”实际上这类软件可能会像你一样思考。 一项麻省理工学院的新研究表明,科学家们构建了一个机器学习系统,可以像人类一样处理声音,能够辨别歌词或按流派对音乐进行分类。 它是第一个模仿大脑来解读声音的人造系统,在准确性上能够与人类相媲美。这项研究发表在Neuron杂志上,为研究人脑提供了吸引人的新方法。 大数据文摘微信公众号后台回复“音乐”即可获得研究论文哟~ 机器学习系统无处不

07

【重磅】DeepMind发布最佳语音神经网络生成模型,与人类差距缩减50%以上

【新智元导读】本文介绍的是WaveNet——一个原始音频波形深度模型。我们展示了,Wavenet能够生成模仿人类的语音,听起来要比现有最好的文本到语音转化系统更自然,将与人类表现的差距缩减了50%以上。 在我们的展示中,相同的网络能被用于合成其他的音频信号,比如,音乐。在这里,我们提供了一些样本——自动生成的钢琴曲。 会说话的机器 让人能与机器对话是人机交互长期以来的一个梦想。近年来,随着深度神经网络的应用(比如,谷歌的语音搜索),计算机理解自然语音的能力取得了革命性的进展。但是,用计算机生成语音仍然大量地

05

Nature子刊:生命的最初几个小时内可快速学习音位辨别—基于fNIRS研究

人类新生儿可以区分音素,但这种能力背后的神经机制尚不清楚。新生儿的大脑可以学会区分自然(前)元音和逆向(后)元音(在子宫中学习不到的)。利用功能近红外光谱,我们检测了出生5小时后随机接触前和后元音 (T1时间点) 和在此之后2小时 (T2时间点)再次接触所发生的神经可塑性变化。实验组的新生儿接受了与T1和T2测试相同的刺激训练,与不接受训练的对照组相比,实验组婴儿在T1时前元音与后元音的血流动力学反应潜伏期更短,且在额下回区域差异最大,在T2神经活动差异增加,在颞叶上部和左侧顶叶下部最明显。由此得知,新生儿在出生后的最初几个小时内表现出对自然音素的超快速调整。

02

PNAS:发音器特异性感觉运动神经指标对婴儿言语感知的影响

虽然越来越多的人们承认,即使是年幼的婴儿也能检测到听到的和看到的言语之间的对应关系,但普遍的观点是,在婴儿开始牙牙学语或说话之前,与言语产生相关的口腔运动不会影响言语感知。我们调查了多模态言语对说话前婴儿的听觉言语感知的影响程度。我们使用事件相关电位(ERPs)来检测感觉运动对婴儿发音运动的作用如何影响3个月大婴儿的听觉言语感知。在实验1中,在不匹配范式下,两种语音对比(/ba/-/ɗa/;/ɗa/-/ɖa/)存在ERP辨别反应,表明婴儿在听觉上辨别了这两种对比。在实验2中,抑制婴儿自身的舌尖运动仅对/ɗa/-/ɖa/对比的早期ERP辨别反应有破坏性影响。同样的发音抑制对/ba/-/ɗa/和/ɗa/-/ɖa/的感知有截然不同的影响,前者在产生过程中需要不同的发音器(嘴唇和舌头),后者要求两个音节都需要舌尖运动作为发音的地方。这两种对比的发音差异很好地解释了舌尖抑制对3个月大婴儿的语音对比变化感知的神经反应的显著影响。结果表明,口头运动抑制和言语辨别之间的关系具有特异性,这一结果表明听觉和运动言语表征之间的映射在说话前的婴儿中就已经存在了。

00
领券