前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专业降噪,GME 有一群噪音猎人精准消除 300+ 种环境噪声|技术分享

专业降噪,GME 有一群噪音猎人精准消除 300+ 种环境噪声|技术分享

作者头像
腾讯游戏多媒体引擎GME
发布2022-11-03 14:11:14
7680
发布2022-11-03 14:11:14
举报
文章被收录于专栏:游戏多媒体引擎GME开发前沿

先介绍下腾讯游戏多媒体引擎 GME 背后的音频黑科技团队——腾讯会议天籁实验室。这是一群“噪音猎人”,他们沉浸在实验室,也穿梭在菜市场、游荡在马路边、商场等各种生活常见场所。噪音是他们的猎物,被狙击、捕获、并消除。

“猪肉铺的老板开始剁肉末了,走!” 王燕南两眼发光,如同饿虎扑食一般冲过去,一根收音棒伸到了桌子前,听着砍刀和砧板激烈碰撞的声音,王燕南如获珍宝。“小伙子,我看你好几天啦。不来两斤五花肉吗?”肉铺老板调侃道。

王燕南是 AI 降噪团队中的成员,一名来自中科大的博士。从本科到硕士再到博士,多年的音频领域研究让他对声音极其敏感。这只是一个普通工作日的下午,这些天外出他已经捕捉到大量吆喝声、脚步声以及它们交融在一起的声音。但是这些还远远不够,他马上还要去公交站旁捕捉汽车的轰鸣声。

腾讯天籁实验室这群“带薪买菜/等公交/坐地铁/逛商场”的工程师,他们的日常工作就是和噪音打交道,同事戏称他们是“噪音猎人”。

01

为什么要死磕噪音?

“电话早在一百多年前就发明了,但是人类却一直没有解决通话噪音的问题。”王燕南摇着头说道。放眼人类一百多年的语音通话史,其实也是一段对抗噪音的历史。而想要消除噪音,需要识别噪音,再进行主动干预。

这个看似简单的答案困扰了技术人员上百年,其难点在于识别哪些是噪音。天籁实验室找来了 AI 的加持。“我们会采集大量的声音数据,做裁剪和清洗、提取特征,再加入模型训练,如果模型准确率达不到 99%,我们会持续收集,一直做到标准为止。”

这才有了本文开篇,工程师在菜市场捕捉声音、采集样本的画面。项目初期,同事们每天都会看到工程师们拿着收音棒四处游荡。捕捉键盘声、手指敲击屏幕、制造关门碰撞声、来回放杯子的声音、抽纸巾的声音,几乎把生活中能想到的噪音都采集了。

天籁实验室日常测试、实验

通过海量的采集和应用,基于机器学习的 AI 降噪模型,团队将识别率提升到了96.2%,超越了大多数开源模型。基于上千小时的语音噪声数据,通过深度学习和 AI 算法,已经能成功消除 300 多种环境噪声。

02

AI 降噪技术实现

基于深度神经网络的 AI 智能降噪,基于海量语音与噪声训练库,以心理声学的发音和听觉模型为基础,融合感知编码,运用经典语音信号和深度学习技术,在模型特征提取上挖掘多尺度的音频特征信息,在训练步骤上引入多目标的优化函数,对 loss 函数进行综合调节。

在传统的降噪方案中,需要一定时间来估计当前环境的底噪信息,这种方案无法处理非平稳噪声这种突发信号,比如键盘、鼠标声、手指敲击屏幕的声音等。

而针对复杂、嘈杂场景下的海量语音数据训练基于 chimera+ 的深度神经网络,通过预测混合噪声信号中的有效语音成分信息,提供增强去噪后的音频输出结果,让用户听得清晰。

针对游戏语音场景,GME 针对各类玩家语音通话时常见环境噪声进行降噪处理。GME 采用的降噪技术融合了常规的 DSP 降噪算法以及 AI 降噪算法,能对各种类型的噪声进行抑制,包括稳态噪声(比如空调声等)以及非平稳噪声(手机屏幕敲击/键盘鼠标音等)。保证玩家在游戏开麦时拥有清晰、流畅的高质量语音互动体验。

进一步,我们又将通信升级到了超宽带模式,通过基于心理声学划分的 bark 域而非传统线性子带压缩特征,并使用新的量化策略减小模型尺寸,降噪模型支持的有效频宽从 8kHz 进一步提升到了 16kHz, 从窄带的 4kHz 到超宽到的 16Khz 实现了全覆盖,MOS 提升 0.1-0.5 不等。

天籁实验室的 300 多种环境噪声消除、回声消除、基于声纹的个性化语音增强、实时语音 3D 虚拟化等业界顶尖音频处理技术,都已被应用于 GME 实时语音中,服务于广大游戏行业客户。未来,GME 也将和天籁实验室也将继续努力,为广大玩家打造“听得清、听得真、超沉浸”的极致语音通话体验。

10 月 27 日,GME 背后的黑科技团队「腾讯会议天籁实验室」携前沿的实时音频通信创新技术重磅亮相 ICASSP 2022 大会。作为 IEEE(电气电子工程师学会)主办的全球规模最大、最全面的信号处理及其应用方面的顶级会议,ICASSP 在国际上享有盛誉并具有广泛的学术影响力。

天籁实验室作为腾讯会议旗下的顶尖实时音频处理团队,研究工作覆盖声学干扰、网络质量、终端设备能力参差不齐等不同场景下的声学挑战,在本次 ICASSP 上分享了基于个人移动及远场拾音场景下的前瞻性探索研究。本系列技术分享专栏将持续分享音频通信、实时互动等相关技术干货,欢迎持续关注。

👇👇👇

关注公众号

回复「加群」与众多游戏开发者交流;

回复「咨询」进行 1V1 语音互动服务咨询。

关于GME ·

腾讯游戏多媒体引擎GME (Game Multimedia Engine) 提供一站式语音互动解决方案。依托腾讯会议天籁实验室在实时音频通信、编解码、降噪、3D 空间音频等领域的技术,针对游戏场景,提供实时语音、360° 空间语音、范围语音、语音消息、语音转文本、语音内容安全、语音录制、正版曲库、虚拟人互动等服务,一次接入即可满足多样化的语音需求。GME 已服务于 6000+ 海内外游戏开发者与厂商,每天提供超过 10 亿分钟的稳定语音服务。

👇点击“阅读原文”直达 GME 官网 

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯游戏多媒体引擎GME 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 10 月 27 日,GME 背后的黑科技团队「腾讯会议天籁实验室」携前沿的实时音频通信创新技术重磅亮相 ICASSP 2022 大会。作为 IEEE(电气电子工程师学会)主办的全球规模最大、最全面的信号处理及其应用方面的顶级会议,ICASSP 在国际上享有盛誉并具有广泛的学术影响力。
  • 天籁实验室作为腾讯会议旗下的顶尖实时音频处理团队,研究工作覆盖声学干扰、网络质量、终端设备能力参差不齐等不同场景下的声学挑战,在本次 ICASSP 上分享了基于个人移动及远场拾音场景下的前瞻性探索研究。本系列技术分享专栏将持续分享音频通信、实时互动等相关技术干货,欢迎持续关注。
相关产品与服务
腾讯会议
腾讯会议(Tencent Meeting)为企业打造专属的会议能力,卓越的音视频性能,丰富的会议协作能力,坚实的会议安全保障,提升协作效率,满足大中小会议全场景需求。您可以使用腾讯会议进行远程音视频会议、在线协作、会管会控、会议录制、指定邀请、布局管理、同声传译等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档