Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

原创
作者头像
腾讯云AI
发布于 2023-01-04 07:16:53
发布于 2023-01-04 07:16:53
5.9K00
代码可运行
举报
运行总次数:0
代码可运行

在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。

作为一项已经很成熟AI技术,市面上很多厂商都会提供语音识别服务,对外声称的识别准确性也很高。

对于业务侧的我们,其实更关心的是在我们特定业务场景中的表现如何。

本文将带着大家从原理到实践了解语音识别效果评测的方方面面。

语音识别,又称语音转录文本,是将语音识别成文本的技术。英文名称 Automatic Speech Recognition,通常缩写为 ASR(下文统一用 ASR 指代)。

显然,一个 ASR 服务的好坏,可以用语音识别出的文本准不准来衡量。

而这个准不准,业界通常会用一个指标来量化:字正确率(Word Correct,W.Corr),又称识别正确率。

要理解字正确率,我们首先要搞清另一个指标 WER。

一、指标原理

1.1 WER 公式

WER(Word Error Rate),即词错误率,是一项用于评价 ASR 效果的重要指标,用来衡量预测文本与标注文本之间的错误率。

因为英文语句中最小单位是词(Word),而中文最小单位是汉字(Character),因此在中文语音识别任务中,使用字错率(Character Error Rate, CER)来衡量 ASR 识别效果。

两者的计算方式相同,我们通常在中文领域,也会使用 WER 表示该指标。

WER 的计算公式如下

#Deletions:删除错误字符数

#Insertions:插入错误字符数

#Substitutions:替换错误字符数

#ReferenceWords:总字符数

1.2 三类错误

整体来看,公式分母是总的字符数,分子是三类错误字符数的加和,下面我们看下这三类错误的含义

为便于描述,约定如下

REF:语音对应的正确文本内容,又称标注文本,即 Reference

HYP:语音通过 ASR 服务识别出的文本,即 Hypothesis

删除错误

语音转录文本过程中,原文中本来包含的文字,ASR 没有识别出来。例子:

语音“你吃了吗”,识别成“你吃了”,其中的“吗”字没有识别出来。

插入错误

语音转录文本过程中,原文中未包含的文字,比如噪音什么的,被 ASR 误识别成文字了。例如:

语音“你吃了吗”,识别成“你吃了吗呀”,其中“呀”字是误识别出的。

替换错误

语音转录文本过程中,原文中包含的文字,被 ASR 错误识别成了其他的文字。例如:

语音“你吃了吗”,识别成“你吃了么”,其中“吗”字识别错了,变成了“么”字。

总结一下

删除错误:识别少了,语音中本来有的字给漏掉了。

插入错误:识别多了,语音中没有的字识别出来了。

替换错误:识别错了,语音中的字识别成其他字了。

理解了这三类错误,回头我们再看上面各个字段,就很好理解了

综上,可见

WER 指的是,通过 ASR 识别出的结果文本中,包含的各类错误(删除、插入、替换)的字符数,与原始文本总数相比,所占的比例值。

现在我们已经理解了 WER 这个指标,接下来我们看下通过什么方式进行计算,才能得出这些值。

1.3 编辑距离

在识别结果文本和标注文本给出的情况下,#ReferenceWords 总字符数很容易得到,而三类错误的数量,我们需要通过“编辑距离”的引入来计算。

WER 公式中的分子部分,也就是

即为识别结果文本到标注文本的编辑距离。

也就是我们只要求得识别结果文本,到标注文本的编辑距离,除以标注文本字符数,就可以得出 WER 指标了。

下面我们具体看下什么是编辑距离,他是怎么计算得到的。

编辑距离(Edit Distance),是由俄罗斯科学家弗拉基米尔·莱文斯坦(Vladimir Levenshtein)于 1965 年提出,又被称为莱温斯坦距离(Levenshtein distance)。

编辑距离用于衡量两个字符串之间的相似度,被广泛应用于 DNA 序列对比、拼写检测、错误率计算等领域。

测量方式是看至少需要多少次处理,才能将一个字符串转变为另一个字符串。其中每次处理,称作一次编辑操作,包含三种:

  • 删除,删除一个字符
  • 插入,插入一个字符
  • 替换,替换一个字符

可以看到,这里的编辑操作,正好对应了上述讨论的三类错误。

编辑距离越短,两个文本越相似;编辑距离越长,两个文本越不同。

编辑距离可以通过如下公式计算得到:

通过上述公式,计算出识别结果文本,变换到到标注文本的最小编辑操作次数,即可得到其编辑距离。

熟悉算法的同学应该知道,通过调整不同操作的序列和数量,计算总次数的最小值,是一个典型的动态规划(Dynamic Programming,简称 DP)问题。

不过这个已经超出本文主题的范围,对 DP 算法感兴趣的同学,可以参考如下资料进一步了解:

1.4 WER 计算

小结一下,计算 WER,可以计算从识别结果到标注文本的编辑距离,再带入下列公式得到

其中各参数如下

1.5 字正确率

好,现在我们回到最初提到的字正确率(Word Correct),这个指标指什么,和 WER 又是什么关系呢?

字正确率和 WER 相比,计算中忽略了插入错误字符数,也就是没有把插入错误纳入错误统计当中。

在实际系统中,上游 ASR 的识别结果,会被下游任务分析模块进一步处理,插入错误的文本会被处理掉,所以只需考察语音中包含的文本,被正确识别出的比例即可,也就是字正确率。

因此,业界厂商通常也把字正确率,与 WER 一起提供,用于衡量 ASR 识别效果。

1.6 开源工具

到此,我们已经理解了 WER 指标、字正确率指标,以及背后的原理与算法。

在产业界,为了避免不同实现造成的指标数据不一致的情况,让各个厂商便于对比各自的数据,大家通常采用开源工具来计算。

这里,我们使用的是美国国家技术研究所 NIST 开源的 Sclite 作为计算工具。

工具通过输入 识别结果文本、标注文本,可以计算得出对应的 WER,三类错误数及对应的详情。

工具使用

通过提供满足特定格式(trn)的识别结果文件、标注文本文件,sclite 可以计算生成包含 WER、字正确率,以及三类错误信息在内的详细评测报告(dtl)。

a. 调用命令示例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 命令格式 sclite -r reffile [ fmt ] -h hypfile [ fmt [ title ] ] OPTIONS
./bin/sclite -r /corpus/audio_file/16k_60s_all_100.trn trn -h /data/output/16k_zh-PY-16k_60s_all_100.trn trn -i spu_id -o dtlb

标注文件:/corpus/audio_file/16k_60s_all_100.trn

识别结果:/data/output/16k_zh-PY-16k_60s_all_100.trn

b. 评测报告示例(dtl)

附:感兴趣的同学可以通过如下官网链接获取 NIST Tools

二、评测实践

网上流行一句话,知道了很多道理,却仍然过不好这一生。知易行难。

同样,我们尽管了解了 ASR 效果指标、原理以及开源工具,但可能仍然感觉无处下手。

为了降低测试门槛,方便客户简单快捷地评估自己业务场景在 腾讯云 ASR 服务 上的识别效果,腾讯云 AI 应用团队打造了 AI Studio 一键评测工具,让用户可以零基础完成评测。

现在处于内测过程中,让我们看下如何使用。

2.1 界面预览

AI Studio 官网链接:https://aistudio.cloud.tencent.com/

打开官网,看到如下页面。

点击右上角【登录】,会跳转到腾讯云官网的登录页面,使用云官网账号登录。

第一栏,是评测服务选项,这里我们选择【语音识别】,最右侧的下拉框中包含两个语音识别接口:录音文件识别实时语音识别

由于算法模型针对这两个业务场景,分别做了针对性优化,这里只需选择自己使用的接口即可。

第二栏,说明了如何创建测试集,以及标注文件时的注意事项。

第三栏,是提交测试任务时,需要选择的字段,这里保持和测试音频元信息一致即可。

2.2 操作指引

下面我们通过一个实例,展示下如果进行一次评测流程。

a. 准备评测语料

点击页面模板链接,查看测试集的格式样例:

测试语料包含两部分:

  • 音频文件:业务场景中收集的音频数据,采样率为 8k 或 16k
  • 标注文件:通过人工方式,将音频中包含的人声发言,记录到文本文件中

其中,标注文件中数字,需要标识为中文大写形式,例如文本“小明考了98分”,需要标注为“小明考了九十八分”

其他注意事项,参考页面:

b. 提交评测任务

下面新建评测任务

第一步:选择相应参数

根据音频信息,选择对应的识别语言、音频采样率

不同引擎类型,已针对特定场景进行优化,在匹配场景下拥有更好的识别效果,这里选择最适合的引擎类型即可,如下

第二步:上传标注测试集

将准备好的测试集,压缩打包,通过页面上传

第三步:检查标注测试集内容

这里系统会解析上传测试集,将音频与标注文本对应后,展示在页面上,供用户进行检查确认(由于测试结果与标注文本的准确性直接相关,需要确保标注文件的正确)。

点击确认提交,完成评测任务的创建。

c. 获取评测结果

任务执行过程中,可通过评测页底部的评测任务管理列表,查看任务状态。

任务状态显示【成功】后,点击右侧【查看结果】,即可查看评测结果:

可以看到评测效果指标字准率(即上述字正确率)、WER、插入/删除/替换错误率。

同时,也可点击下面的下载地址,获取评测报告和识别结果文件,进行进一步分析。

附录

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
人工智能,应该如何测试?(五)ASR 效果测试介绍
ASR 是自动语音识别(Automatic Speech Recognition)的缩写,是一种将人的语音转换为文本的技术。这项技术涉及声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等多个学科。ASR 系统的性能受到识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人或多个说话人以及硬件等因素的影响。
霍格沃兹测试开发Muller老师
2024/04/07
4500
ASR(语音识别)评测学习
小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)
用户5521279
2020/12/24
8.8K0
Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!
在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。
GPUS Lady
2025/05/05
9220
Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
语音识别(ASR,Automatic Speech Recognition)是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域,例如语音助手、语音输入、视频字幕等场景。衡量中文 ASR 性能的主要指标是字错误率(CER,Character Error Rate),该值越低,表示模型的识别效果越好。
机器之心
2025/02/10
4380
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
重磅 | 小米首次公开发表论文:基于注意力机制的端对端语音识别(附论文翻译)
文/CSDN周翔 今年 3 月,雷军在两会的媒体沟通会上表示,“去年年初,小米设立了探索实验室,不久将有重磅级的人工智能产品发布。” 昨日(7 月 26 日)下午,传闻已久小米人工智能产品——小米 AI 音箱终于现身。在发布会上,王川特意提到了小米脑王刚博士带领的 NLP 团队,也就是说小米已经用上了自己的 NLP 技术。但是语音识别方面,小米 AI 音箱仍然采用了第三方的技术。 不过,AI科技大本营发现,就在几天前,小米在 arXiv 上首次提交了一篇端对端的语音识别论文。这篇论文实际上是西工大计算机
AI科技大本营
2018/04/27
1.7K0
重磅 | 小米首次公开发表论文:基于注意力机制的端对端语音识别(附论文翻译)
识别率,你们是怎么理解计算的呢?
当我们测试语音识别相关的系统,衡量性能是非常重要的,一般语音识别准确性最常用的度量标准是字错误率,比如录音笔中的转写功能或者输入法语音输入等等,其实就是语音识别提供的服务,因此也需要测试相关的指标。
用户5521279
2021/02/12
4.3K0
识别率,你们是怎么理解计算的呢?
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一。从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来,NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR
腾讯高校合作
2021/01/07
1.7K0
腾讯云语音识别(ASR)助力智慧园区落地
语音识别,也称为自动语言识别(Automatic Language Identification, ALI),是自然语言处理(NLP)领域的一个重要研究方向。它旨在让计算机能够自动地识别出给定文本所属的语言种类。这一技术对于跨语言交流、多语言信息处理、机器翻译等方面具有广泛的应用价值。
不惑
2024/05/25
7763
腾讯云语音识别(ASR)助力智慧园区落地
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
4890
谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类
从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中,在模型性能上取得了重大的突破。
AI科技评论
2019/08/28
1.1K0
谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类
干货 | 对端到端语音识别网络的两种全新探索
AI 科技评论按:语音识别技术历史悠久,早在上世纪 50 年代,贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起,传统的基于统计的 HMM 声学模型,N 元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始,GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间,随着深度学习的快速发展,算力的快速增长,数据量的急速扩张,深度学习开始大规模应用于语音识别领域并取得突破性进展,深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外,端到端的模型可以轻松的将各种语言揉合在一个模型中,不需要做额外的音素词典的准备,这将大大推动业界技术研究与应用落地的进度。
AI科技评论
2018/12/07
1.2K0
干货 | 对端到端语音识别网络的两种全新探索
Moonshine 用于实时转录和语音命令的语音识别 !
实时自动语音识别(ASR)对于许多应用至关重要,包括在演讲中的实时转录、听力障碍人士的辅助工具以及智能设备和可穿戴设备中的语音命令处理。这些应用通常直接在低成本硬件上运行,严格的资源约束和缺乏互联网连接带来了其他ASR领域所不存在的独特技术挑战。
AIGC 先锋科技
2024/11/11
5670
Moonshine 用于实时转录和语音命令的语音识别 !
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。
AGI-Eval评测社区
2025/04/08
2580
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
AI Talk | 语音识别ASR幕后神器-模方平台
ASR 作为机器学习的基础应用之一,已成为众多业务支撑的基础能力,在录音质检、音频字幕、会议转写、语音输入等场景中发挥越来越大的作用。腾讯云 ASR 作为业界领先的语音识别服务提供商,为开发者提供语音转文字服务的最佳体验,具备识别准确率高、接入便捷、性能稳定等特点。
腾讯云TI平台
2021/10/09
2.3K0
语音识别技术 – ASR丨Automatic Speech Recognition
对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。
easyAI
2019/12/18
2.6K0
语音识别技术 – ASR丨Automatic Speech Recognition
学界 | 一文概览语音识别中尚未解决的问题
选自Awni 机器之心编译 参与:Nurhachu Null、路雪 深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。 深度学习被应用在语音识别领域之后,词错率有了显著地降低。然而,尽管你已经读到了很多这类的论文,但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。这是把自动语音识别(
机器之心
2018/05/10
1K0
滴滴出行场景中语音识别模型的自学习平台化实践
“数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,敬请咨询期待!
数据猿
2020/11/13
1.2K0
滴滴出行场景中语音识别模型的自学习平台化实践
基于Pytorch实现的MASR中文语音识别
MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于masr 进行开发的。
夜雨飘零
2020/07/30
4.2K0
PPASR语音识别(进阶级)
本项目将分三个阶段分支,分别是入门级 、进阶级 和最终级 分支,当前为进阶级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注!
夜雨飘零
2021/12/07
1.2K0
PPASR语音识别(进阶级)
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
HarmonyOSNext中集成了强大的AI功能。Core Speech Kit(基础语音服务)是它提供的众多AI功能中的一种。
万少
2025/02/09
2530
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
推荐阅读
相关推荐
人工智能,应该如何测试?(五)ASR 效果测试介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档