前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >千万日活腾讯会议背后:深度学习的最新应用

千万日活腾讯会议背后:深度学习的最新应用

作者头像
腾讯多媒体实验室
发布于 2020-04-01 08:40:27
发布于 2020-04-01 08:40:27
2.4K0
举报

导读 | 深度学习是实现语音增强最主要的方法之一,­帮助我们从带噪语音中提取尽可能纯净的原始语音,提高语音质量和可懂度。腾讯会议在去年年底推出,短短两个月内就突破千万日活大关。在多样且复杂的场景下,深度学习如何帮助腾讯会议在实时通话中进行去混响、声音事件检测和回声消除?本文是腾讯多媒体实验室高级研究员王燕南在「腾讯技术开放日·云视频会议专场」的分享整理。 

点击视频,查看直播回放

一、经典的语音增强深度学习算法

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。它的主要目标是从带噪语音中提取尽可能纯净的原始语音,提高语音质量和可懂度。比如希望对方即使在飞机驾驶舱噪音环境中说话,我们也能听清楚。

    做语音增强会用到一些经典算法,我们之前自己的应用,以及竞品的应用中使用比较多也比较成熟的算法主要有下面几种。当然算法每家不一样,本质上都是一些估计的方式:

    这些经典的算法,相对于其他比较激进的算法,其实大部分场景下效果都很好,特别对于音质的保留。因为自然界或者工作生活中的噪声非常多,各种各样,所以有时候我们利用经典算法,会达到满意的效果。还有一些常见的声音,比如键盘鼠标或者关门的声音,因为我们关注的比较多,研究的比较多,针对这些特定类型的噪声,特定类型的算法,我们可以做一些改进或者做新算法的研究,来提升我们现在的传统算法的效果。

    经典算法也有一点问题,就是它的适应性还是不够强。另外,前面提到很多的开源算法在做对应算法的时候都有各种各样的问题,比如有部分的残留,或者可能需要一定的延迟。针对这些问题,我们主要利用我们的深度神经网络去做了一些算法的研究。

二、DNN/CNN/RNN,哪个模型最适合

我们想基于深度神经网络去做语音增强的话,最重要是两个部分,模型结构和算法选择。

模型结构法从2015、2016年开始用得比较多,到现在大家开始做DNN或者RNN、CNN,甚至做一些新的研究结构也比较多。现在不同的考量会有很多不同的选择,比如第一个问题就是模型复杂度,神经网络如果想做好效果的话,它的复杂度要求比较高,第二个就是不同的网络计算量不一样,在移动端部署或者PC端部署的难度也不一样。还有一个最重要的问题,就是不同的网络架构对于语音的信号处理的应用网络效果也不一样,之前我们最早大部分做语音的时候都是用RNN比较多,后来从CNN图像里面用的比较多,后面我们再做一些新的研究的时候会发现,CNN在处理语音信号时也能取得比较好的效果,特别在直接做时域信号处理上,也能做出来一个跟RNN效果相当甚至还是更好的程度。 

在算法的选择方面,我们其实可以把大部分的算法分为两大类,基于mapping和基于masking的方法。基于mapping的方法,主要是通过网络学习直接预测输出的语音谱。基于masking的方法,主要是基于听觉掩蔽效应,在同一个时频点上语音和噪声的能量占比不同。如果语音为主,我们倾向保留,如果噪声能量为主我们倾向于把它去除。 

    除了上述两类,还有一种方式是在时域上直接处理,这样就省略了频谱变换的过程。它的最大优点就是,首先会减小计算量,因为FFT变换还是有一定的计算量的。第二,它能够避免相位估计带来的损失,因为我们所有基于谱的方式,不管是mapping还是masking,都需要做相位的估计,但是这个估计是非常难的,所以我们大部分情况下是直接从原始信号里取相位信息来做目标信号的相位。但是,这种情况下很不准,肯定是有误差的,现在也有很多方法去学习和改进相位的分布,但是效果离真实的值还是有差距。

    这样的网络架构,它是直接从时域信号经过网络变化,再经过反变化,从本质上讲,相当于把相关的估计放到网络的学习过程中去了。这种方法主要是包含三大模块,一块是Encoder,一块是Decoder,当然中间还需要做一个Separation的过程。总体来说,我们在做研究过程中发现,不同网络中的效果,优点和缺点都不一样,当然现在算法还在迭代中,目前经过各种不同对比,包括线上模型的鲁棒性,包括整个效果的对比,我们选定还是基于masking的方式进行估计。

    我们在做算法时面临的最大的一个问题就是语音损失,因为既然要做降噪,不可避免会把语音中的信号进行一些去除,这样就会带来一些语音的损失。如果说想尽量减少语音损失的话,就会导致降噪量不够,这实际上是一个比较两难的问题。针对这个过程我们在算法中做了很多工作,不管从数据上,从网络中丢包上都做了很多改动,一方面通过减少降噪量的方式改善语音损失,另一方面对不同的效果做了一些平衡

    另外一个比较重要的就是常见的鲁棒性问题。因为我们用DNN网络做算法的话,最大的一个问题就是数据的匹配。本质上是因为不同设备的问题,比如说用耳机、用平板、用手机,手机又有不同的型号,设备本身这样的麦克风采集的特性是不一样的,不同的频段也不一样,会导致我们最后拿到的语音信号会有不同的特点。而我们做这些网络的话,需要用一个算法在不同设备和不同的平台上都能取得比较好的效果,那么需要对模型做很多的改动,所以目前我们其实在不同的设备端采用不同的模型的参数。

    但是考虑到比如说安卓手机的厂家和型号种类繁多,而且更新速度非常快,所以我们也做了一些取舍,在某些特定的平台上我们并没有做专门的机型的适配,只是针对一些比较宽泛的平台上做了一些适配。

三、客观更好才是真的好

我们主要关注音质,所以这里列了两个指标,一个是PESQ,一个是STOI。我们选了目前用的比较多的开源算法,也是基于神经网络去做的,大概研究了六种常见的噪声场景,再加上一个开源的噪声场景,总共有七种,比如汽车、家庭、会议、办公室、餐厅、街道,我们关注的区间是-10dB到25dB。

我们发现,以PESQ衡量,在目前所有的情况下我们的提升基本上都有0.1到0.3,甚至0.4

    STOI的话,除了在-10dB的情况下有略微损失之外,其他情况下基本上是保持没有损失或者有一定的提升。

    另外,我们也专门针对会议场景中常见的几种不同噪声类型,专门都做了一些采集和测试,包括键盘、咳嗽,桌子上摆放水杯的声音,还有会议室下雨打窗户的声音。当然效果还有不足,特别是在咳嗽和桌子放水杯下的情况,噪声的能量非常强,在低频还是有一点残留的,但是基本不可闻,大部分情况下还是能实现比较好的效果。

四、应对真实场景中的问题

    针对真实场景中的问题,我们在商业上也做一些技术研究,比如去混响、回声消除、关键词检测、声音事件检测等。

1. 去混响

    去混响的主要目的是去除直达信号之外的信号,提升可懂度,就是要听清楚他主要在说什么,同时又要避免对语音的损失。

    用传统的算法做去混响要面对房间响应的估计问题,这是比较难估计的,特别是用户如果在不同的房间,响应的差异比较大,这跟房间的形状,材料以及物品布置都有关系。

基于这个原因我们自己也做了一套基于DNN网络的混响算法,我们在不同的房间、不同的人、不同的数据上面都做了一些数据的自适应,得到了不错的效果。

2. 回声消除

    目前的回声消除算法已经做得很好,包括在大部分的设备上,不管是PC还是在不同的手机上面效果都非常好。但是,有时候难免会碰到一些比较极端的情况,特别是有些设备尺寸比较大,或者设置有问题、配置有问题,会导致在特定情况下或者在特定的房间中,因为混响或者因为各种各样的原因,有可能会产生漏回声的情况。

面对这种情况,传统算法一旦没有收敛的话就有可能失效。那么我们在这样的情况下是做了一个后处理,针对特定类型的设备,在特定情况下会产生漏回声的情况,我们自己做了一个回声消除的神经网络,利用这样的网络去把我们经过传统的回声消除算法处理过的信号,再进行一次过滤,相当于做一次融合,从而把我们有可能采集到的回声做一个更干净的消除。

    3. 关键词检测

    我们在开会过程中难免会碰到各种各样的问题,比如说网络出问题或者电脑出问题,或者突然有麦克风采集问题,导致对端无声。所以我们做了一个算法,主要是为了监测通话中的实时音质,以发现是网络问题,还是算法问题,或者是本身硬件问题,然后我们会基于检测结果对我们的线上算法、甚至对硬件设备进行不同的自适应来调整,目前这个算法还在上线中。

    4. 声音事件检测

    我们做声音事件检测主要是为了改善通话质量,有的时候说话人身处的环境可能包含一些特殊信息,比如当前的讲话人可能身处在什么环境,或者身处周围有什么不同的一些特点的干扰的特性。

    在这方面我们其实可以做很多工作,比如说进行检测,进行分类,我们在这个地方是借鉴了国际比赛中常用的几种不同的任务,包括场景分类、事件检测,通过把算法引到会议里面去,对当前的讲话人所处的环境进行估计。比如他说可能周围有一些狗叫声或者音乐或者其他的乐器,针对这样一个检测结果,我们会对商业算法和网络做一些不同的设置自适应。如果检测到音乐的话,因为音乐的声音信号比较特殊,相比语音细节更多,如果直接采用语音信号的配置去传输音乐的话对音质的损失会比较大,那么我们会对算法做一些调整,包括采样率、码率等都会做一些调整,来尽量提升音乐传输的音质。

    还有一个问题就是我们在线上会碰到各种不同的问题,比如说不同的设备很复杂,或者接入的时候可能由于编解码或者网络,或者有一些服务器,甚至电脑本身产生一些问题导致一些奇怪的信号,这些信号很难查清楚它到底来源于哪儿,所以我们针对这些问题提供类似于杂音检测的功能。检测到当前的通话过程中存在一些特殊的杂音,它有可能是在网络或者在上行下行过程中产生的时候,我们是没办法进行去除的,只能在下行或者是在服务器上进行处理,不管做一些检测或者做一些去除,都能做一些相应的改善。

五、Q&A

Q:回声消除的噪声适用一个模型还是两个模型?

    A:我们的回声消除模型和普通的不太一样。在语音结构上面,因为它要处理的全部都是语音,所以跟我们用的噪声做的目标不太一样,模型结构也不太一样,包括处理数据可能都不太一样,所以导致参数是差异很大的。

 Q:你们使用CTRT的时候调整是什么程度?

    A:它其实不是传统的模型或者编码,它是用一个复杂比较低的去预测的,去合成丢失帧。处理的方法其实它有考虑到一定的编解码的特点,但是没有做更多的针对,就是在训练数据方面是有一些调整。

Q: 你们现在做的声学模型,所占的资源大概是多少?会引起技术天花板效应吗?

    A: 这个可能就是维度比较高,角度比较多,到底占CPU的百分之多少,我们只能说它的量是比传统的高一些,具体的也不太好说,主要不同平台不同设备,占的资源也不一样。

    另外,这种模型不是说主要针对语音噪声,所有的只要是噪声我们都能处理。语音技术的天花板效应的话,这个问题基本上是无解的,因为它完全取决于我们的数据,质量越好,那么它的目标或者模型训练效果越好,遇到的相对性也就越高。我们一般能拿到的数据不会那么干净,所以我们一般会先挑选,比如只要在30 dB或者40 dB以上。由于各种限制,即使在数据干净这样的条件下,我们目前的模型也不可能达到天花板那个点,所以这个问题目前不是我们关注的,如果我们把复杂度做到极致的话,才会考虑是否遇到了天花板。目前我们的策略还是会和一些传统方法进行融合。

六、讲师简介

王燕南

腾讯多媒体实验室高级研究员

王燕南,腾讯多媒体实验室高级研究员。2017年加入腾讯,王燕南博士毕业于中国科学技术大学,在机器学习及语音信号处理等方面拥有丰富的经验,研究领域包括语音增强、语音分离、语种识别、关键词识别等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯会议如何保证语音质量?音频信号处理中有这些秘籍!
导读 | 腾讯会议在去年年底推出,集结腾讯在AI、云计算、安全等方面的能力,全方位满足不同场景下的会议需求,在短短两个月内就突破千万日活大关。面对多样且复杂的场景,比如开会环境嘈杂、同一地点多设备接入、房间声学参数不理想等,腾讯会议如何通过对音频信号的处理持续保障高品质通话,提升沟通效率?本文是腾讯多媒体实验室音频技术专家李岳鹏在「腾讯技术开放日·云视频会议专场」的分享整理。 点击视频,查看直播回放 一、TRAE技术降噪增益揭秘 先简单讲一下VOIP中语音数据实时传输路径图,我们可以看到远端的数据通过
腾讯多媒体实验室
2020/04/01
7.7K1
邓滨:信号处理+深度学习才能实现语音交互
本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。邓滨认为,传统的信号处理与前沿的深度学习技术结合,才能实现准
LiveVideoStack
2021/09/01
7900
语音前处理技术在会议场景中的应用及挑战
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。LiveVideoStackCon2022上海站大会邀请到了全时 音视频研发部经理 顾骋老师,为大家详细介绍了语音前处理技术在会议场景中的应用与挑战。 文/顾骋 整理/LiveVideoStack 大家好,我是顾骋,来自全时
LiveVideoStack
2023/04/04
9160
语音前处理技术在会议场景中的应用及挑战
腾讯会议突围背后:端到端实时语音技术是如何保障交流通畅的?
说到腾讯会议背后的实时语音端到端解决方案,大家可能第一时间就想到了PSTN电话,从贝尔实验室创造模拟电话开始,经过一百多年的发展,整个语音通信、语音电话系统经历了很大一部分变化。尤其是最近三十年来,语音通话由模拟信号变为数字信号,从固定电话变为移动电话,从电路交换到现在的分组交换。
腾讯云开发者
2020/03/25
6.4K0
云视频会议背后的语音核心技术揭秘:如何进行语音质量评估?
导读 | 自疫情发生以来,腾讯会议每天都在进行资源扩容,日均扩容主机接近1.5万台,用户活跃度攀升。在如此高并发流量的冲击下,腾讯会议如何保证语音通信清晰流畅?如何对语音质量进行评估?在【腾讯技术开放日·云视频会议专场】中,腾讯多媒体实验室音频技术专家易高雄针对语音质量评估进行了分享。 点击视频,查看直播回放 一、语音质量界定     音频和语音是电声学下面两个不同的学科分支,属于两个不同的应用,两者在应用目的、使用场景、行业和用户认知统一度三方面存在差异,所以对于语音质量测试来说,首先要界定一下评估对象
腾讯多媒体实验室
2020/04/13
2.8K0
腾讯多媒体实验室商世东:腾讯会议背后的实时语音端到端解决方案
导语: 受疫情影响,很多企业开启了线上办公模式,视频会议成为刚需、高频的办公工具。用户爆发式的增长,让各远程办公应用面临了巨大挑战,除扩容服务器等硬件设施外,保证高品质的通话体验、降低端到端的延迟技术架构,成了保证远程会议体验的关键点。 面对这次高并发流量的冲击,腾讯会议通过融合经典信号处理、心理听觉和深度学习理论,针对端到端音视频通信链路上的复杂特性,对音视频在云端和用户终端的网络传输环境进行了优化,为用户提供了清晰流畅的语音服务。 近日,腾讯多媒体实验室高级总监商世东受云+社区沙龙online邀请,
腾讯多媒体实验室
2020/03/19
2.7K0
深度学习在AEC中的应用探索
我们可以想象为两个人通电话,从左框看到的远端信号(Far-End)是指对方传过来的信号x(n),而右框的近端信号(Near-End)指着本地麦克风收到的信号y(n)。
LiveVideoStack
2019/12/17
3K0
深度学习在AEC中的应用探索
语音识别现状与工程师必备技能
作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别
用户1737318
2018/06/05
2K0
智能语音交互中的麦克风阵列技术
近年来,随着语音识别技术的发展成熟,语音交互越来越多的走进我们的生活。从苹果手机Siri助手的横空出世开始,各大公司纷纷效仿开发自己的语音助手和语音识别平台,手机端的近场语音交互日趋成熟。后来Amazon发布Echo智能音箱,开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互,Echo音箱的语音交互支持距离更远,交互更加自然便捷,它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果,随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。
DancingWind
2019/08/01
11K0
智能语音交互中的麦克风阵列技术
全球顶级语音技术比赛中获双料冠军,这家中国公司靠什么?
腾讯、西工大、CMU等国内外机构是这场对决的主办方,两项比赛内容是语音行业的前沿研究,针对真实视频会议场景。
量子位
2021/07/19
5910
2021腾讯犀牛鸟精英科研人才培养计划课题(六)——语音技术
12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。 本年度精英科研人才计划将延续人工智能领域顶尖科研人才培养,发布包含机器人、AI医疗、量子计算、智慧城市等12个前沿热议方向,71项研究课题。入选学生将由校企导师联合制定专属培养计划,并获得3个月以上到访腾讯开展科研访问的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将为学生搭建线上和线下学习、交流平台,帮助学生挖掘更多潜能。 本期小编整理了该计
腾讯高校合作
2020/12/24
1.4K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
AI科技大本营
2018/04/27
1.1K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
令人激动的语音UI背后
亚马逊Echo和Echo Dot智能音箱获得了成功,它已经使语音命令(通常称为语音UI或语音UI)出现在了新技术产品中。在每一部智能手机和平板电脑上,大多数新型汽车上,以及快速增长的音频产品中,都有这个功能。最终,大多数家用电器,音频和视频产品,甚至像健身跟踪器这样的可穿戴设备,最终也都会有语音命令功能。
半吊子全栈工匠
2018/08/22
1.6K0
令人激动的语音UI背后
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
AI科技评论
2018/09/21
1.1K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得了一系列成功的应用。 这次分享会中,雷锋网邀请到了中科院自动化所的刘斌博士。刘斌,中科院自动化所博士,极限元资深智能语音算法专家,中科院-极限元智能交互联合实验室核心技术人员,曾多次在国际顶级会议上发表论文,获得多项关于语音及音频领域的专利,具有丰富的工程经验。刘斌博士会与大家分享近年来深度学习在语音生成问题中的新方法,围绕语音合成和
AI科技评论
2018/03/14
1.2K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
音频基础知识
Nyquist 采样率大于或等于连续信号最高频率分量的 2 倍时,采样信号可以用来完美重构原始连续信号。
Gnep@97
2023/09/06
3.6K0
音频基础知识
专栏 | 极限元语音算法专家刘斌:基于深度学习的语音生成问题
机器之心专栏 作者:刘斌 深度学习在 2006 年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得一系列成功的应用。本文将重点分享近年来深度学习在语音生成问题中的新方法,围绕语音合成和语音增强两个典型问题展开介绍。 一、深度学习在语音合成中的应用 语音合成主要采用波形拼接合成和统计参数合成两种方式。波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音,它在工业界中得到了广泛使用。统计参数语音合成虽然整
机器之心
2018/05/08
1.3K0
专栏 | 极限元语音算法专家刘斌:基于深度学习的语音生成问题
风多大都能让你听见,这个视频制作APP帮你告别「全损音质」
机器之心原创 机器之心编辑部 空气为何突然安静?原来是开了「降噪」按钮。 「你说什么?风太大我听不见!」 这句大家经常拿来玩梗的话其实在现实中也经常发生,尤其是在短视频的录制过程中。风声、雨声、机器声…… 每一种噪声都可能让你的视频拥有「全损音质」。 为了减轻环境噪声带来的影响,人们想了很多种方法,比如给话筒穿上厚厚的「毛衣」: 但「毛衣」不是冰冰的笑容,不可能解决一切问题。更何况,我们大多数人拍视频都是手机直接收音,连专业话筒都没有。 硬件不够软件凑。噪声在视频中的广泛存在催生了一大批降噪软件,它们
机器之心
2023/03/29
7460
风多大都能让你听见,这个视频制作APP帮你告别「全损音质」
ZLG深度解析——语音识别技术
语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。
刘盼
2019/05/17
2.5K0
ZLG深度解析——语音识别技术
前端语音信号处理
语音活动检测(Voice Activity Detection, VAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD。
全栈程序员站长
2022/09/01
1.3K0
前端语音信号处理
推荐阅读
相关推荐
腾讯会议如何保证语音质量?音频信号处理中有这些秘籍!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档