专业降噪，GME 有一群噪音猎人精准消除 300+ 种环境噪声｜技术分享

腾讯游戏多媒体引擎GME

发布于 2022-11-03 06:11:14

8840

先介绍下腾讯游戏多媒体引擎 GME 背后的音频黑科技团队——腾讯会议天籁实验室。这是一群“噪音猎人”，他们沉浸在实验室，也穿梭在菜市场、游荡在马路边、商场等各种生活常见场所。噪音是他们的猎物，被狙击、捕获、并消除。

“猪肉铺的老板开始剁肉末了，走！” 王燕南两眼发光，如同饿虎扑食一般冲过去，一根收音棒伸到了桌子前，听着砍刀和砧板激烈碰撞的声音，王燕南如获珍宝。“小伙子，我看你好几天啦。不来两斤五花肉吗？”肉铺老板调侃道。

王燕南是 AI 降噪团队中的成员，一名来自中科大的博士。从本科到硕士再到博士，多年的音频领域研究让他对声音极其敏感。这只是一个普通工作日的下午，这些天外出他已经捕捉到大量吆喝声、脚步声以及它们交融在一起的声音。但是这些还远远不够，他马上还要去公交站旁捕捉汽车的轰鸣声。

腾讯天籁实验室这群“带薪买菜/等公交/坐地铁/逛商场”的工程师，他们的日常工作就是和噪音打交道，同事戏称他们是“噪音猎人”。

为什么要死磕噪音？

“电话早在一百多年前就发明了，但是人类却一直没有解决通话噪音的问题。”王燕南摇着头说道。放眼人类一百多年的语音通话史，其实也是一段对抗噪音的历史。而想要消除噪音，需要识别噪音，再进行主动干预。

这个看似简单的答案困扰了技术人员上百年，其难点在于识别哪些是噪音。天籁实验室找来了 AI 的加持。“我们会采集大量的声音数据，做裁剪和清洗、提取特征，再加入模型训练，如果模型准确率达不到 99%，我们会持续收集，一直做到标准为止。”

这才有了本文开篇，工程师在菜市场捕捉声音、采集样本的画面。项目初期，同事们每天都会看到工程师们拿着收音棒四处游荡。捕捉键盘声、手指敲击屏幕、制造关门碰撞声、来回放杯子的声音、抽纸巾的声音，几乎把生活中能想到的噪音都采集了。

天籁实验室日常测试、实验

通过海量的采集和应用，基于机器学习的 AI 降噪模型，团队将识别率提升到了96.2%，超越了大多数开源模型。基于上千小时的语音噪声数据，通过深度学习和 AI 算法，已经能成功消除 300 多种环境噪声。

AI 降噪技术实现

基于深度神经网络的 AI 智能降噪，基于海量语音与噪声训练库，以心理声学的发音和听觉模型为基础，融合感知编码，运用经典语音信号和深度学习技术，在模型特征提取上挖掘多尺度的音频特征信息，在训练步骤上引入多目标的优化函数，对 loss 函数进行综合调节。

在传统的降噪方案中，需要一定时间来估计当前环境的底噪信息，这种方案无法处理非平稳噪声这种突发信号，比如键盘、鼠标声、手指敲击屏幕的声音等。

而针对复杂、嘈杂场景下的海量语音数据训练基于 chimera+ 的深度神经网络，通过预测混合噪声信号中的有效语音成分信息，提供增强去噪后的音频输出结果，让用户听得清晰。

针对游戏语音场景，GME 针对各类玩家语音通话时常见环境噪声进行降噪处理。GME 采用的降噪技术融合了常规的 DSP 降噪算法以及 AI 降噪算法，能对各种类型的噪声进行抑制，包括稳态噪声（比如空调声等）以及非平稳噪声（手机屏幕敲击/键盘鼠标音等）。保证玩家在游戏开麦时拥有清晰、流畅的高质量语音互动体验。

进一步，我们又将通信升级到了超宽带模式，通过基于心理声学划分的 bark 域而非传统线性子带压缩特征，并使用新的量化策略减小模型尺寸，降噪模型支持的有效频宽从 8kHz 进一步提升到了 16kHz，从窄带的 4kHz 到超宽到的 16Khz 实现了全覆盖，MOS 提升 0.1-0.5 不等。

天籁实验室的 300 多种环境噪声消除、回声消除、基于声纹的个性化语音增强、实时语音 3D 虚拟化等业界顶尖音频处理技术，都已被应用于 GME 实时语音中，服务于广大游戏行业客户。未来，GME 也将和天籁实验室也将继续努力，为广大玩家打造“听得清、听得真、超沉浸”的极致语音通话体验。

10 月 27 日，GME 背后的黑科技团队「腾讯会议天籁实验室」携前沿的实时音频通信创新技术重磅亮相 ICASSP 2022 大会。作为 IEEE（电气电子工程师学会）主办的全球规模最大、最全面的信号处理及其应用方面的顶级会议，ICASSP 在国际上享有盛誉并具有广泛的学术影响力。

天籁实验室作为腾讯会议旗下的顶尖实时音频处理团队，研究工作覆盖声学干扰、网络质量、终端设备能力参差不齐等不同场景下的声学挑战，在本次 ICASSP 上分享了基于个人移动及远场拾音场景下的前瞻性探索研究。本系列技术分享专栏将持续分享音频通信、实时互动等相关技术干货，欢迎持续关注。

👇👇👇

关注公众号

回复「加群」与众多游戏开发者交流；

回复「咨询」进行 1V1 语音互动服务咨询。

关于GME ·

腾讯游戏多媒体引擎GME (Game Multimedia Engine) 提供一站式语音互动解决方案。依托腾讯会议天籁实验室在实时音频通信、编解码、降噪、3D 空间音频等领域的技术，针对游戏场景，提供实时语音、360° 空间语音、范围语音、语音消息、语音转文本、语音内容安全、语音录制、正版曲库、虚拟人互动等服务，一次接入即可满足多样化的语音需求。GME 已服务于 6000+ 海内外游戏开发者与厂商，每天提供超过 10 亿分钟的稳定语音服务。

👇点击“阅读原文”直达 GME 官网

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-11-02，如有侵权请联系 cloudcommunity@tencent.com 删除

腾讯会议