Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACM MM 2024:基于多尺度融合的脑控说话人提取方法

ACM MM 2024:基于多尺度融合的脑控说话人提取方法

作者头像
脑机接口社区
发布于 2024-07-17 07:27:50
发布于 2024-07-17 07:27:50
5170
举报
文章被收录于专栏:脑机接口脑机接口
近日,发表在CCF A类会议上的一篇文章提出了一种用于脑控说话人提取的多尺度融合网络,使用端到端架构充分提取EEG信号和语音信号的多模态融合特征。相关研究成果以MSFNet: Multi-Scale Fusion Network for Brain-Controlled Speaker Extraction为题发表于the 32nd ACM International Conference on Multimedia (ACM MM 24)。

作者:范存航,张晶晶,张宏玉,项旺,陶建华,李心慧,易江燕,隋典伯,吕钊*(通讯作者)

背景介绍

人类大脑具有出色的选择性听觉注意能力,使个体能够在多说话人环境(如鸡尾酒会)中,仅提取目标听觉信息,同时忽略干扰语音。但对于患有听力损失的听者来说,这是一个重大挑战。在过去的十年里,语音增强和说话人提取算法的快速发展推动了助听器的进步,并作为前端语音处理技术来去除背景噪声或提取清晰的目标语音,以便投入语音应用,例如语音活动检测、说话人日志和语音合成等。但这些方法仍然缺乏人类选择性注意神经机制的有效性,实际应用中会受到环境限制。为了从多说话人混合语音中分离出目标语音,而不需要任何预注册的先验信息(例如目标说话人的身份信息),提出了一个解决方案是解码听者的大脑神经信号以确定目标说话人,使系统具备主动感知能力。根据神经科学的最新研究,证明了听者的听觉注意可以从大脑活动的记录中解码。EEG信号为研究皮层神经活动提供了一种非侵入性且有效的方法,这使得它特别适合于听觉注意检测(AAD)任务。然而,如何更有效地利用EEG信号和语音中所包含的针对目标说话人的共同信息仍是一个难题。

实验方法

在本文中,我们提出了一种多尺度融合网络(MSFNet)用于脑控说话人提取,这是一个端到端的时域模型。MSFNet方法通过所记录的EEG信号直接建模听者的注意力方向,以提取目标语音。它主要包括四个部分:语音编码器、EEG编码器、说话者提取网络和语音解码器。为了充分利用语音信息并更准确地捕捉语音的时间特征,语音编码器将混合语音波形的片段编码为具有不同时间尺度的多尺度语音嵌入。在EEG编码器中,使用图卷积网络(GCN)有效地提取EEG试验数据中的非欧几里得数据,获得目标说话人信息的特征表示。最后,在说话者提取网络中,这些多尺度语音嵌入与EEG特征分别进行融合,并估计出相应的感受掩码以提取目标说话人。在主要的Cocktail Party 数据集上的实验结果显示,所提出的MSFNet模型在SI-SDR和PESQ指标上相对于最先进方法分别改进了11.5%和13.6%。

接着,我们提出了一个创新性的音频-视频脑电数据集,简称为AVED数据集,旨在促进听觉注意解码和脑控说话者提取等相关方向的研究。为了模拟真实世界的感知环境,AVED数据集中包含了同时提供视频和音频刺激以及仅有音频作为刺激的情境,提供更丰富的模态信息。在表1中介绍了本工作中所使用数据集的详细设置。

实验结果

  • 与基线模型结果对比分析

在 Cocktail Party数据集上的实验结果:在该数据集上进行的实验使用了全部受试者的数据,网络训练过程不提供任何关于目标说话人的先验身份信息,做到subject-independent的设置,即未知目标说话人提取。在Table2中的结果表明,所提出的MSFNet模型在SI-SDR、STOI和PESQ方面分别比BASEN方法有1.33dB, 0.02, 0.3的相对改善。

在所提出的AVED数据集上的实验结果:由于在AVED数据集中,只使用了受试者注意同一个说话人的试验数据去进行网络训练和测试推理,将这种实验设置称为speaker-dependent提取,即已知目标说话人提取。在这种设置下,同样将所提出方法和UBESD、BASEN模型进行了比较,结果如表2所示。

因此,可以得出结论,在不同的数据集和不同实验设置中,与其他现有的EEG-语音多模态说话人提取基线方法相比,MSFNet模型仍然表现出竞争力的性能。

  • 消融实验分析

在表3中,我们探讨了分别融合多尺度语音嵌入和EEG嵌入想法的有效性。可以看到,覆盖三种不同时频分辨率的滤波器组合表现最佳,SI-SDR为12.89 dB,STOI为0.88,PESQ为2.51。此外,在单尺度语音编码器设置下的实验结果比较中,只使用长度为36个样本(约0.0025秒)的滤波器实现小窗口获得了最佳系统性能,其SI-SDR、STOI和PESQ的值分别为12.21 dB、0.88和2.34。随着滤波器数量的增加,例如共同使用长度为36个样本和长度为147个样本(0.01秒)的滤波器,实验结果进一步提高。

在使用EEG信号和语音进行多模态融合的说话者提取网络中,我们比较了使用DPRNN结构和TCN结构的性能。MSFNet网络使用4个重复的DPRNN块来估计感受掩码,同时我们将采用堆叠4次的基于深度一维卷积层的TCN块来估计感受掩码的网络称为MSFNet(TCN)。如表4所示,可以清楚地观察到,所提出的MSFNet在所有指标上显著优于MSFNet(TCN)。

为了说明在EEG编码器中加入GCN层有助于学习不同脑区之间的相关性,提高说话人提取性能,我们在表5中比较了有无GCN的影响。为了调整到最合适的GCN层数,还衡量了其层数从1到4对实验结果的影响。当使用3层GCN时,模型在所有指标上都取得最好的结果。

论文引用:

Maryam Hosseini, Luca Celotti, and Éric Plourde. Speaker-independent brain enhanced speech denoising. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1310–1314. IEEE, 2021.

Maryam Hosseini, Luca Celotti, and Eric Plourde. End-to-end brain-driven speech enhancement in multi-talker conditions. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30:1718–1733, 2022.

Jie Zhang, QingTian Xu, Qiu-Shi Zhu, and Zhen-Hua Ling. BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions. In Proc. INTERSPEECH 2023, pages 3117–3121, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
安徽大学范存航、吕钊团队提出使用动态图自蒸馏方法实现基于EEG的高性能听觉注意检测
安徽大学智能信息处理与人机交互实验室(IIP-HCI)的范存航副教授、吕钊教授联合清华大学的陶建华教授、中科院自动化所的易江燕副研究员,提出了一种基于动态图自蒸馏(DGSD)的听觉注意检测模型。
脑机接口社区
2023/09/19
1.2K0
安徽大学范存航、吕钊团队提出使用动态图自蒸馏方法实现基于EEG的高性能听觉注意检测
音质评价(三)如何评价音质好坏
质量评估指的是通过人为或自动化的方法评价语音的质量。在实践中,通常可以根据评价方式分为主观评价和客观评价两类。
singleli
2022/11/27
2.5K0
金融/语音/音频处理学术速递[11.8]
Update!H5支持摘要折叠,体验更佳!点击阅读原文访问arxivdaily.com,涵盖CS|物理|数学|经济|统计|金融|生物|电气领域,更有搜索、收藏等功能! q-fin金融,共计3篇 cs.
公众号-arXiv每日学术速递
2021/11/17
3240
端到端声源分离研究:现状、进展和未来
什么是端到端音源分离呢?罗艺老师首先介绍了端到端音源分离的定义。从名称来看,端到端的含义是模型输入源波形后直接输出目标波形,不需要进行傅里叶变换将时域信号转换至频域;音源分离的含义是将混合语音中的两个或多个声源分离出来。
深蓝学院
2020/09/07
2.9K0
端到端声源分离研究:现状、进展和未来
重建「巴别塔」:谷歌推出全新端到端语音翻译系统
可能是职业习惯,《流浪地球》中有一幕让小编印象非常深刻:刘培强戴着耳机和俄罗斯宇航员交流,两人各自说着母语,然后被实时同步翻译,毫无障碍不说,甚至拉家常开玩笑都没问题。这种黑科技,太好用了叭!
机器之心
2019/05/17
8460
学界 | 一文概览基于深度学习的监督语音分离
选自arXiv 机器之心编译 参与:刘晓坤、路雪 近年来,基于深度学习的监督语音分离发展很快。本文作者对今年相关研究进行概述,介绍了语音分离的背景、监督语音分离的形成和组成部分,从历史的角度叙述了监督
机器之心
2018/05/10
1.7K0
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
多目标跟踪(MOT)是计算机视觉领域的一项重要技术,在移动机器人、自动驾驶(Sun等人,2020)和体育分析(Zhao等人,2023)等应用中发挥着重要作用。随着目标检测的最新进展,基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务:在每一帧中检测物体;以及跨多个帧关联这些物体。基于检测范式的核心是数据关联,这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处,但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。
集智书童公众号
2024/06/11
5650
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
金融/语音/音频处理学术速递[6.29]
【1】 On Stochastic PDEs for the pricing of derivatives in a multi-dimensional diffusion framework 标题:多维扩散框架下衍生品定价的随机偏微分方程
公众号-arXiv每日学术速递
2021/07/02
5670
金融/语音/音频处理学术速递[12.24]
【1】 Intra-Household Management of Joint Resources: Evidence from Malawi 标题:联合资源的家庭内部管理:来自马拉维的证据 链接:https://arxiv.org/abs/2112.12766
公众号-arXiv每日学术速递
2021/12/27
2920
金融/语音/音频处理学术速递[8.18]
【1】 Analysis of Data Mining Process for Improvement of Production Quality in Industrial Sector 标题:提高工业部门生产质量的数据挖掘过程分析 链接:https://arxiv.org/abs/2108.07615
公众号-arXiv每日学术速递
2021/08/24
6420
重磅!公开基于“内心对话”的EEG脑机接口数据集,助力语音意念控制研究
脑电图是一种标准的、无创的测量脑电活动的方法。人工智能的最新进展让大脑模式的自动检测得到显著改进,允许越来越快、更可靠和可访问的脑-机接口。很多的范式已被用于实现人机交互。在过去的几年里,对解释和描述“内心声音”现象的兴趣有了广泛的增加。这种被称为“内在言语”的范式,提高了仅通过思考来执行命令的可能性,允许以一种“自然”的方式控制外部设备。由于缺乏公开可用的脑电图数据集,限制了内部语音识别新技术的发展。
脑机接口社区
2022/08/26
7240
重磅!公开基于“内心对话”的EEG脑机接口数据集,助力语音意念控制研究
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。
脑机接口社区
2024/04/13
3710
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
金融/语音/音频处理学术速递[12.15]
【1】 The Oracle estimator is suboptimal for global minimum variance portfolio optimisation 标题:对于全局最小方差投资组合优化,Oracle估计器是次优的 链接:https://arxiv.org/abs/2112.07521
公众号-arXiv每日学术速递
2021/12/17
5700
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
近年来,脑肿瘤分割模型在诊断中发挥了重要作用。然而,它们面临着MRI复杂性和多变性的挑战,包括不规则形状和边界模糊,导致噪声、误分类和不完整的分割,从而限制了其准确性。
未来先知
2025/01/20
6350
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
使用时空-频率模式分析从脑电数据的一些试验中提取N400成分
关于高小榕教授的介绍,可以查看本社区之前分享的《第1期 | 国内脑机接口领域专家教授汇总》
脑机接口社区
2020/07/28
9400
Interspeech 20周年,ASR和SD相关论文提前看
INTERSPEECH 是语音科学和技术领域最大、最全面的国际学术会议。INTERSPEECH 2019 将在奥地利第二大城市格拉茨(Graz)举办。在 INTERSPEECH 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、语音增强这些细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。恰逢 INTERSPEECH 20 周年,主办方透露在会议日程上将会出现一些别出心裁的设计,即将参会的同行们可以期待一下。
机器之心
2019/09/17
1K0
Interspeech 20周年,ASR和SD相关论文提前看
EEGNet:一个小型的卷积神经网络,用于基于脑电的脑机接口
脑机接口(BCI)利用神经活动作为控制信号,可以与计算机直接通信。这种神经信号通常从各种研究充分的脑电图(EEG)信号中选择。对于给定的脑机接口(BCI)范式,特征提取器和分类器是针对其所期望的脑电图控制信号的不同特征而定制的,这限制了其对特定信号的应用。卷积神经网络(Convolutional neural networks, CNNs)已被用于计算机视觉和语音识别中进行自动特征提取和分类,并成功地应用于脑电信号识别中;然而,它们主要应用于单个BCI范例,因此尚不清楚这些架构如何推广到其他范例。在这里,我们想问的是,我们是否可以设计一个单一的CNN架构来准确地分类来自不同BCI范式的脑电图信号,同时尽可能小型的方法。在这项工作中,我们介绍了EEGNet,一个小型的卷积神经网络为基于脑电图的BCI。我们介绍了深度卷积和可分离卷积的使用来构建脑电图特定模型,该模型封装了众所周知的脑机接口脑电图特征提取概念。我们比较了EEGNet,包括被试内和跨被试分类,以及目前最先进的四种BCI范式:P300视觉诱发电位、错误相关负波(ERN)、运动相关皮层电位(MRCP)和感觉运动节律(SMR)。我们表明,当在所有测试范例中只有有限的训练数据可用时,EEGNet比参考算法更好地泛化,并取得了相当高的性能。此外,我们还演示了三种不同的方法来可视化训练过的EEGNet模型的内容,以支持对学习到的特征的解释。意义:我们的结果表明,EEGNet足够鲁棒,可以在一系列BCI任务中学习各种各样的可解释特征。本文发表在Journal of Neural Engineering杂志。
用户1279583
2021/12/05
2.3K0
EEGNet:一个小型的卷积神经网络,用于基于脑电的脑机接口
GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音
本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。
AI科技大本营
2019/11/14
12.2K0
百度语音合成模型Deep Voice3
Deep Voice3是由百度提出的一个全新的全卷积TTS架构。百度的主要工作分为如下五个方面:
mathor
2020/08/24
2.9K0
百度语音合成模型Deep Voice3
当AI也精通了「读唇术」:戴上口罩或许是我最后的倔强
有一个人类的本能行为,或许我们很难察觉:当因为隔得太远或者环境噪音太大而听不清对方说话的时候,你会下意识地观察对方的唇部动作,来判断这个人到底在讲什么。
机器之心
2020/06/09
6880
当AI也精通了「读唇术」:戴上口罩或许是我最后的倔强
推荐阅读
相关推荐
安徽大学范存航、吕钊团队提出使用动态图自蒸馏方法实现基于EEG的高性能听觉注意检测
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档