前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >语音识别系列︱paddlehub的开源语音识别模型测试(二)

语音识别系列︱paddlehub的开源语音识别模型测试(二)

作者头像
悟乙己
发布于 2022-10-08 00:57:04
发布于 2022-10-08 00:57:04
7.6K00
代码可运行
举报
文章被收录于专栏:素质云笔记素质云笔记
运行总次数:0
代码可运行

上一篇:

语音识别系列︱用python进行音频解析(一)

这一篇开始主要是开源模型的测试,百度paddle有两个模块,paddlehub / paddlespeech都有语音识别模型,这边会拆分两篇来说。

整体感觉,准确度不佳,而且语音识别这块的使用文档写的缺胳膊少腿的;

使用者需要留心各类安装问题。


文章目录


1 paddlehub的安装

先把paddlepaddle安装好了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
!pip install --upgrade paddlepaddle  -i https://mirror.baidu.com/pypi/simple
!pip install --upgrade paddlehub  -i https://mirror.baidu.com/pypi/simple
!pip install pytest-runner  -i https://mirror.baidu.com/pypi/simple
!pip install paddlespeech  -i https://mirror.baidu.com/pypi/simple

接下来可就麻烦一些,要下载的很多,一些依赖:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apt-get install -y libsndfile1 swig g++ gcc

其中在paddlehub教程中是libsndfile,但是目前已经找不到这个依赖了;然后有些linux没装gcc/g++

安装swig_decoder

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/PaddlePaddle/DeepSpeech.git && cd DeepSpeech && git reset --hard b53171694e7b87abe7ea96870b2f4d8e0e2b1485 && cd deepspeech/decoders/ctcdecoder/swig && sh setup.sh

如果不安装成功,会报错:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 ImportError: No module named swig_decoders

2 几款模型

语音识别的模型paddlehub有以下几个:模型

中文的有三个,安装完之后,可以下载:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hub install deepspeech2_aishell
hub install u2_conformer_wenetspeech
hub install u2_conformer_aishell

模型三个链接:

3 三款语音识别模型实验

跑实验的时候如果会出现报错:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ImportError: libGL.so.1: cannot open shared object file: No such file or directory

需要安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install opencv-python-headless   -i https://mirror.baidu.com/pypi/simple

如果还一直报错,那就卸载了,然后再重新装。

这几款模型音频采样率16000,如果不是,那就需要更改音频采样率:

语音识别系列︱用python进行音频解析(一)

3.1 deepspeech2_aishell - 0.065

DeepSpeech2是百度于2015年提出的适用于英文和中文的end-to-end语音识别模型。deepspeech2_aishell使用了DeepSpeech2离线模型的结构,模型主要由2层卷积网络和3层GRU组成,并在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的CER指标是0.065。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import paddlehub as hub

# 采样率为16k,格式为wav的中文语音音频
wav_file = '/PATH/TO/AUDIO'

model = hub.Module(
    name='deepspeech2_aishell',
    version='1.0.0')
text = model.speech_recognize(wav_file)

print(text)

3.2 u2_conformer_wenetspeech - 0.087

模型信息:

U2 Conformer模型是一种适用于英文和中文的end-to-end语音识别模型。u2_conformer_wenetspeech采用了conformer的encoder和transformer的decoder的模型结构,并且使用了ctc-prefix beam search的方式进行一遍打分,再利用attention decoder进行二次打分的方式进行解码来得到最终结果。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import paddlehub as hub

# 采样率为16k,格式为wav的中文语音音频
wav_file = '/PATH/TO/AUDIO'

model = hub.Module(
    name='u2_conformer_wenetspeech',
    version='1.0.0')
text = model.speech_recognize(wav_file)

print(text)

3.3 u2_conformer_aishell - 0.055

模型信息:

U2 Conformer模型是一种适用于英文和中文的end-to-end语音识别模型。u2_conformer_aishell采用了conformer的encoder和transformer的decoder的模型结构,并且使用了ctc-prefix beam search的方式进行一遍打分,再利用attention decoder进行二次打分的方式进行解码来得到最终结果。

u2_conformer_aishell在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的CER指标是0.055257。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import paddlehub as hub

# 采样率为16k,格式为wav的中文语音音频
wav_file = '/PATH/TO/AUDIO'

model = hub.Module(
    name='u2_conformer_aishell',
    version='1.0.0')
text = model.speech_recognize(wav_file)

print(text)

参考:https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/audio/asr/u2_conformer_aishell

4 文本-标点恢复

模型信息,文档

Ernie是百度提出的基于知识增强的持续学习语义理解模型,该模型将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。

"悟道"文本数据集 采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

数据总量:3TB

数据格式:json

开源数量:200GB

数据集下载:https://resource.wudaoai.cn/

日期:2021年12月23日

auto_punc采用了Ernie1.0预训练模型,在WuDaoCorpora 2.0的200G开源文本数据集上进行了标点恢复任务的训练,模型可直接用于预测,对输入的对中文文本自动添加7种标点符号:逗号(,)、句号(。)、感叹号(!)、问号(?)、顿号(、)、冒号(:)和分号(;)。

安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hub install auto_punc

预测代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import paddlehub as hub

model = hub.Module(
    name='auto_punc',
    version='1.0.0')

texts = [
    '今天的天气真好啊你下午有空吗我想约你一起去逛街',
    '我最喜欢的诗句是先天下之忧而忧后天下之乐而乐',
]
punc_texts = model.add_puncs(texts)
print(punc_texts)
# ['我最喜欢的诗句是:先天下之忧而忧,后天下之乐而乐。', '今天的天气真好啊!你下午有空吗?我想约你一起去逛街。']

5 语音识别 + 标点恢复 案例

这里简单写一个官方的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import paddlehub as hub

# 语音识别
# 采样率为16k,格式为wav的中文语音音频
wav_file = '/PATH/TO/AUDIO'

model = hub.Module(
    name='deepspeech2_aishell',
    version='1.0.0')
text = model.speech_recognize(wav_file)

print(text)

# 标点恢复

model = hub.Module(
    name='auto_punc',
    version='1.0.0')

punc_texts = model.add_puncs([text])
print(punc_texts)
# ['我最喜欢的诗句是:先天下之忧而忧,后天下之乐而乐。', '今天的天气真好啊!你下午有空吗?我想约你一起去逛街。']
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-10-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
语音识别系列︱paddlespeech的开源语音识别模型测试(三)
参考: 语音识别系列︱用python进行音频解析(一) 语音识别系列︱paddlehub的开源语音识别模型测试(二)
悟乙己
2022/10/08
9.3K0
基于PaddlePaddle语音识别模型
本项目是基于PaddlePaddle的DeepSpeech项目修改的,方便训练中文自定义数据集。
夜雨飘零
2020/05/06
1.5K0
基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型
本项目是基于PaddlePaddle的DeepSpeech 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别(ASR)引擎,其论文为《Baidu’s Deep Speech 2 paper》 ,本项目同时还支持各种数据增强方法,以适应不同的使用场景。支持在Windows,Linux下训练和预测,支持Nvidia Jetson等开发板推理预测。
夜雨飘零
2022/01/13
2.9K0
基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型
飞桨开发者又出新工具!让AI也能听懂你的话
PPASR是飞桨社区开发者夜雨飘零开发的一款基于飞桨实现的语音识别工具,简单实用,可识别中文语音,可部署在服务器、Nvidia Jetson设备,未来还计划支持Android等移动设备。
用户1386409
2022/03/31
7840
飞桨开发者又出新工具!让AI也能听懂你的话
PPASR流式与非流式语音识别
本项目将分三个阶段分支,分别是入门级 、进阶级 和最终级 分支,当前为最终级,持续维护版本。PPASR中文名称PaddlePaddle中文语音识别(PaddlePaddle Automatic Speech Recognition),是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。
夜雨飘零
2021/12/07
1.3K0
PPASR流式与非流式语音识别
PPASR语音识别(进阶级)
本项目将分三个阶段分支,分别是入门级 、进阶级 和最终级 分支,当前为进阶级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注!
夜雨飘零
2021/12/07
1.2K0
PPASR语音识别(进阶级)
Github项目推荐 | 超全预训练模型,深度学习开发工具-PaddleHub
这个项目的github地址为:https://github.com/PaddlePaddle/PaddleHub
机器学习之禅
2022/07/11
1.6K0
Github项目推荐 | 超全预训练模型,深度学习开发工具-PaddleHub
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
语音识别(ASR,Automatic Speech Recognition)是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域,例如语音助手、语音输入、视频字幕等场景。衡量中文 ASR 性能的主要指标是字错误率(CER,Character Error Rate),该值越低,表示模型的识别效果越好。
机器之心
2025/02/10
4250
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选
目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大,因此就做了一次大自然的搬运工把框架转为tensorflow….
AI科技大本营
2019/10/28
5.5K0
实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选
微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023/06/04
4.2K0
微调Whisper语音识别模型和加速推理
GitHub 3.1K,业界首个流式语音合成系统开源!
智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。 飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用! PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。
机器学习AI算法工程
2022/05/25
6.3K0
GitHub 3.1K,业界首个流式语音合成系统开源!
打破国外垄断,出门问问主导研发的端到端语音识别开源框架WeNet实践之路
今年 2 月,中国人工智能公司出门问问联合西北工业大学推出了全球首个面向产品和工业界的端到端语音识别开源工具 ——WeNet。
深度学习与Python
2021/11/10
1.2K0
打破国外垄断,出门问问主导研发的端到端语音识别开源框架WeNet实践之路
应用实践:Paddle分类模型大集成者[PaddleHub、Finetune、prompt]
项目连接: 应用实践:分类模型大集成者[PaddleHub、Finetune、prompt]
汀丶人工智能
2022/12/21
5640
应用实践:Paddle分类模型大集成者[PaddleHub、Finetune、prompt]
给语音识别文本加上标点符号
在语音识别中,模型输出的结果只是单纯的文本结果,并没有根据语法添加标点符号,本教程就是针对这种情况,在语音识别文本中根据语法情况加入标点符号,使得语音识别系统能够输出在标点符号的最终结果。
夜雨飘零
2022/05/10
3.2K0
微调Whisper模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023/04/30
2.5K0
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
机器之心专栏 作者:腾讯游戏知几AI团队,西北工业大学音频、语音与语言处理研究组(ASLP@NPU) 近日,腾讯游戏知几AI团队与西工大ASLP组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。 Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recogn
机器之心
2022/06/07
2.6K0
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
基于Pytorch实现的MASR中文语音识别
MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于masr 进行开发的。
夜雨飘零
2020/07/30
4.2K0
调用 Baidu 语音识别接口识别短句
采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%
为为为什么
2023/06/27
8880
调用 Baidu 语音识别接口识别短句
【python的魅力】:教你如何用几行代码实现文本语音识别
语音识别技术,也被称为自动语音识别,目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。
爱喝兽奶的熊孩子
2024/05/05
1.1K0
【python的魅力】:教你如何用几行代码实现文本语音识别
阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 阿里达摩院,又搞事儿了。 这两天,它们发布了一个全新的语音识别模型: Paraformer。 开发人员直言不讳:这是我们“杀手锏”级的作品。 ——不仅识别准确率“屠榜”几大权威数据集,一路SOTA,推理效率上相比传统模型,也最高可提升10倍。 值得一提的是,Paraformer刚宣布就已经开源了。 语音输入法、智能客服、车载导航、会议纪要等场景,它都可以hold住。 怎么做到的? Paraformer:从自回归到非自回归 我们知道语音一直是人机交互重
量子位
2023/02/28
7880
阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源
推荐阅读
相关推荐
语音识别系列︱paddlespeech的开源语音识别模型测试(三)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验