Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
技术百科首页 >语音识别

语音识别

修改于 2023-08-31 18:15:56
580
概述

语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。

语音识别有什么产品功能?

实时语音识别

对不限时长的实时音频流进行识别,识别结果自动断句,标记每句话的开始和结束时间;可应用于智能语音助手等实时音频流场景。

录音文件识别

对用户上传的五小时之内的录音文件进行识别;可应用于呼叫中心语音质检、视频字幕生成,会议语音资料转写等场景。

语音流异步识别

对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型;可用于直播流质检等场景。

录音文件识别极速版

对用户上传的较大的录音文件进行极速识别,半实时返回识别结果;可应用于音视频字幕、准实时质检分析场景等场景。

一句话识别

对一分钟之内的短音频文件进行识别;可应用于语音输入法、语音消息转文字、语音搜索等场景。

说话人识别

基于语音识别与声纹识别能力,将说话人的音频与语音库中该说话人预存的音频进行1:1比对验证,具备一定的抗攻击能力,可用于身份验证场景。

虚拟号真人判定

基于语音识别和声学算法能力,在智能外呼场景下,能够在毫秒级准确判断真人用户何时接起电话,帮助客户判断对话机器人的启动时机。

语音识别有什么产品优势?

海量数据积累

立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。

算法业界领先

基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内领先的识别精度。

支持多平台设备

提供 REST APISDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。

支持语种丰富

现阶段已经支持中文普通话、英文、粤语、韩语、日语、泰语和上海话等23种方言的语音识别,后续将持续开放其他语种和语言的识别能力。

噪声环境识别佳

语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。

海量内外部业务验证

经过微信、腾讯视频、王者荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。

语音识别有什么应用场景?

智能客服质检

在智能客服场景中,使用腾讯云语音识别可以将客服通话录音转化为文本,对可能出现的违规用语、危险用语等进行及时的干预处理,避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。

会议实时转写

通过腾讯云语音识别实现实时对会议内容进行转写,免除了大量人工记录的工作,并通过产品的自动分段功能减轻后续人工编辑的工作量,辅助会议记录快速生成,提升稿件整体效率。

实时字幕

支持对视频进行实时字幕转写,产品提供时间戳功能,其精细度可到字级别,帮助客户更好地定位字幕持续时间,实现在线会议、在线视频的实时字幕功能。

法庭转写

传统场景的书记员人工记录方式有可能影响庭审的效果,或出现错误需要二次修改。使用腾讯云语音识别,可自动地实现庭审记录的转写,大量降低了人工成本,避免了人为错误、人为篡改等因素,维护了法庭记录的合规性,有效提升庭审记录效率。

面对面销售

腾讯云语音识别对面对面销售的场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度,能够通过远场识别技术准确地转写客户和销售人员的对话内容,帮助销售人员回顾工作过程,或帮助管理者进行销售人员规范用语质检。

语音输入法

腾讯云语音识别能够帮助各大输入法厂商实现语音转写,通过多方言、多语种、实时性等特性的支持,能够覆盖大部分终端客户语音转写的场景,可用性高达95%。

外呼虚拟号

由于虚拟号转接平台的广泛应用,现有的外呼手段很容易在部分场景下无法直接触达用户,出现对话机器人工作异常的情况。ASR+产品系列中的“虚拟号真人判定”产品可提供基于语音识别的虚拟号外呼解决方案,其接通判断模型能够在毫秒级精准判定真人用户何时接起了电话。

身份认证

客户可将ASR+产品系列中的“说话人识别”产品用于身份认证、登录锁等场景。客户可要求当前访问者念读文本,经预存声音对比后,即可认证访问者是否为本人,从而达到身份认证的效果。说话人识别产品具备一定的抗攻击性音频的能力(建议结合随机文本、设备ID或人脸核身作为辅助认证手段)。

语音识别服务每月有免费额度吗?

  • 录音文件识别免费额度为每月10小时。
  • 一句话识别免费额度为每月5000次。
  • 实时语音识别免费额度为每月5小时。
  • 语音流异步识别免费额度为每月5小时。
  • 录音文件识别极速版免费额度为每月5小时。
  • 免费额度中的小时数指识别成功的音频时长; 免费额度中的次数指识别成功的次数。

语音识别支持的输入音频时长是多少?

一句话识别每次调用支持60秒之内的音频。

录音文件识别每次调用支持五小时之内的音频。

实时语音音频流中每个数据包的音频分片为200ms。

语音识别能否保存语音文件?

语音识别上传的音视频文件是不会保存的,识别成功后存储的是识别后的文本文件,文本文件会在服务器上保存7天。保存语音文件会影响识别结果,目前结果是直接返回的,您可以在业务侧自行实现语音文件的保存,您可将语音文件保存在本地服务器或者数据库中。

如何使用语音识别服务?

使用方式

适用对象

说明

相关文档

通过 语音识别控制台 进行功能体验

非业务开发者,没有代码编写基础

此方式只能用于体验,不能用于开发。

通过 API 3.0 Explorer 在线调用功能

开发初学者,有代码编写基础

此方式能够实现在线调用、签名验证、SDK 代码生成和快速检索接口等能力

通过编写代码调用 API 进行开发

开发工程师,熟悉代码编写

腾讯云已编写好的开发工具集(SDK),支持通过调用语音识别服务 API 开发功能。目前 SDK 已支持多种语言,包括 Python、Java、PHP、Go、Node.js、.Net 等,可在每个服务的文档中下载对应的 SDK。

通过客户端 SDK 进行集成

客户端开发工程师,熟悉代码编写

腾讯云支持通过已编写好的开发组件(SDK)在客户端集成语音识别的能力。目前客户端 SDK 主要支持的 Android、iOS 平台,您可以在 客户端 SDK 中心 获取对应的 SDK 包。

语音识别的基本原理是什么?

声学特征提取

  • ​预处理​​:对原始语音信号进行预加重、分帧、加窗等操作。预加重是为了提升高频部分,分帧是把语音分成短时段,加窗减少频谱泄漏。
  • ​特征提取​​:常用梅尔频率倒谱系数(MFCC),它模拟人类听觉感知特性,从语音信号中提取能反映语音特征的参数,形成特征向量序列,作为后续识别的输入。

声学模型

  • ​作用​​:建立语音特征和声学单元(如音素)的映射关系,判断特征对应哪个声学单元。
  • ​实现方式​​:传统方法用隐马尔可夫模型(HMM)和高斯混合模型(GMM)结合,现在深度学习中常用基于循环神经网络(RNN)及其变体(LSTM、GRU)、卷积神经网络(CNN)和端到端模型(如连接时序分类CTC、基于注意力机制Seq2Seq)。

语言模型

  • ​作用​​:对识别出的文本序列进行约束和优化,结合语法、语义知识,让输出更符合自然语言表达习惯,提高识别准确性。
  • ​实现方式​​:早期用n - 元语法模型,现在常用基于循环神经网络的神经网络语言模型,如长短期记忆网络(LSTM)语言模型。

解码器

  • ​作用​​:结合声学模型和语言模型,从所有可能输出序列中找出概率最大的序列作为最终识别结果。
  • ​实现方式​​:常用维特比算法,对于端到端模型,采用束搜索等策略,在搜索空间中高效找到最优解。

模型训练与优化

  • ​数据收集与标注​​:收集大量语音数据并准确标注文本,涵盖不同口音、语速、场景等。
  • ​模型训练​​:用标注数据训练声学模型和语言模型,调整模型参数以最小化预测结果和真实标签的差异。
  • ​模型优化​​:采用技术如模型融合、量化、剪枝等,提升模型性能和效率。

语音识别的核心算法有哪些?

基于深度学习的声学模型算法

  • ​端到端模型​​:连接时序分类(CTC)算法简化了传统语音识别复杂流程,直接将语音特征序列映射到文本序列,无需单独定义声学单元和状态对齐;基于注意力机制(Attention)的Seq2Seq模型,能自动学习语音和文本间对齐关系,有效捕捉长序列依赖信息,提升识别准确率。
  • ​混合模型​​:结合双向长短时记忆网络(BLSTM)和卷积神经网络(CNN)。BLSTM处理序列数据时能考虑前后文信息,CNN可有效提取语音局部特征,两者结合发挥各自优势,增强模型对语音特征的捕捉能力。

语言模型算法

  • ​神经网络语言模型​​:如基于长短期记忆网络(LSTM)或门控循环单元(GRU)的语言模型,能更好处理长距离依赖关系,学习到更复杂的语言模式和语义信息,使识别结果更符合语言表达习惯。
  • ​预训练语言模型​​:借助大规模无监督语料预训练,像BERT等模型获取通用语言知识,再针对语音识别任务微调,可显著提升语言模型性能。

特征提取算法

  • ​梅尔频率倒谱系数(MFCC)​​:模拟人类听觉系统对不同频率声音感知特性,将语音信号转换为一组具有区分性的特征参数,广泛用于语音识别特征提取。
  • ​感知线性预测(PLP)​​:考虑人类听觉感知特性,对语音信号进行线性预测分析,提取反映语音频谱特征的参数,在嘈杂环境下能有效提升识别效果。

模型优化算法

  • ​模型剪枝​​:去除模型中对输出结果影响小的连接或神经元,减少模型参数数量和计算量,加快推理速度,降低资源消耗。
  • ​量化​​:将模型参数从高精度数据类型转换为低精度类型,减少内存占用和计算复杂度,同时尽量保持模型性能。
  • ​知识蒸馏​​:用大模型(教师模型)指导小模型(学生模型)训练,让学生模型学习教师模型知识和特征表示,在保证一定性能前提下显著减小模型规模。

哪些因素会影响语音识别的性能?

语音本身因素

  • ​发音清晰度​​:发音模糊、口齿不清,如含糊词语、吞音等,会增加识别难度,降低准确率。
  • ​语速快慢​​:语速过快,语音识别系统难以精准捕捉每个音节和词汇;过慢可能使语音不自然,引入停顿、重复等问题,影响识别效果。
  • ​口音和方言​​:带有浓重地方口音或使用方言时,因发音特点与标准普通话有差异,系统若未针对性优化,识别准确率会受影响。

环境因素

  • ​噪音干扰​​:周围环境噪音大,如街道嘈杂声、机器轰鸣声等,会掩盖语音信号,使系统难以提取有效特征,导致识别错误。
  • ​回声和混响​​:在空旷房间、大型会议室等场所,声音反射产生回声和混响,干扰语音信号,影响识别效果。

数据因素

  • ​数据质量​​:训练数据存在错误标注、噪声污染等问题,会使模型学习到错误特征,降低识别性能。
  • ​数据多样性​​:训练数据覆盖语音类型、口音、场景等不够广泛,系统泛化能力受限,在遇到未见过的情况时,识别准确率会下降。

模型和系统因素

  • ​模型复杂度​​:模型过于简单,无法学习到复杂语音特征;过于复杂,会增加计算量,导致推理速度慢,还可能出现过拟合问题。
  • ​模型更新​​:若模型长时间不更新,无法适应新语音特征和语言变化,识别性能会逐渐下降。
  • ​系统资源​​:服务器计算能力不足、内存不够等,会使语音识别处理速度变慢,甚至无法完成任务。

如何解决语音识别中的噪声干扰问题?

语音采集端

  • ​硬件降噪​​:选用高质量麦克风,如定向麦克风,它能聚焦特定方向声音,减少周围环境噪音收集;也可配备降噪耳机,其内置降噪电路,可有效抑制环境噪音。
  • ​优化采集环境​​:尽量选择安静场所进行语音采集,如隔音较好的房间;若无法改变环境,可使用吸音材料,如吸音板、地毯等,减少环境噪音反射。
  • ​语音增强预处理​​:在将语音数据上传至腾讯云前,利用语音增强算法处理,如谱减法、维纳滤波等,降低噪声强度,提高语音清晰度。

腾讯云平台端

  • ​选择合适识别模型​​:腾讯云提供多种语音识别模型,部分针对特定场景和噪音环境优化。可根据实际应用场景选择合适模型,如嘈杂环境下可选择有较强抗噪能力的模型。
  • ​反馈与优化​​:收集识别结果不准确的案例,向腾讯云反馈。腾讯云会根据大量用户反馈持续优化算法和模型,提升在复杂环境下的识别性能。
  • ​结合其他技术​​:可结合语义理解、上下文分析等技术辅助识别。当识别结果因噪声出现模糊时,通过分析上下文语义纠正错误,提高整体识别准确性。

词条知识树 (45个知识点)
全部收起
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券