aishell - 腾讯云开发者社区

---- 文章目录 1 paddlehub的安装 2 几款模型 3 三款语音识别模型实验 3.1 deepspeech2_aishell - 0.065 3.2 u2_conformer_wenetspeech...- 0.087 3.3 u2_conformer_aishell - 0.055 4 文本-标点恢复 5 语音识别 + 标点恢复案例 ---- 1 paddlehub的安装先把paddlepaddle...hub install u2_conformer_wenetspeech hub install u2_conformer_aishell 模型三个链接： u2_conformer_aishell deepspeech2...deepspeech2_aishell使用了DeepSpeech2离线模型的结构，模型主要由2层卷积网络和3层GRU组成，并在中文普通话开源语音数据集AISHELL-1进行了预训练，该模型在其测试集上的...u2_conformer_aishell在中文普通话开源语音数据集AISHELL-1进行了预训练，该模型在其测试集上的CER指标是0.055257。

6.9K2 0

rv1106&rv1109&rv1126移植sherpa-onnx 实现TTS功能

.tar.bz2 tar xvf vits-icefall-zh-aishell3.tar.bz2 rm vits-icefall-zh-aishell3.tar.bz2 [root@owlvtech:.../vits-icefall-zh-aishell3/model.onnx \ > --vits-lexicon=..../vits-icefall-zh-aishell3/tokens.txt \ > --tts-rule-fsts=./vits-icefall-zh-aishell3/phone.fst,..../szh-aishell3/model.onnx --vits-lexicon=./vits-icefall-zh-aishell3/lexicon.txt --vtts-rule-fsts=..../vits-icefall-zh-aishell3/phone.fst,./vits-icefall-zh-aishell3/da10 --output-filename=.

9591 0

您找到你想要的搜索结果了吗？

是的

没有找到

微调Whisper语音识别模型和加速推理

源码地址：Whisper-Finetune使用环境：Anaconda 3Python 3.8Pytorch 1.13.1Ubuntu 18.04GPU A100-PCIE-40GB*1项目主要程序介绍aishell.py...：制作AIShell训练数据。...aishell_test为AIShell的测试集，test_net和test_meeting为WenetSpeech的测试集。...本项目提供了一个制作AIShell数据集的程序aishell.py，执行这个程序可以自动下载并生成如下列格式的训练集和测试集，注意：这个程序可以通过指定AIShell的压缩文件来跳过下载过程的，如果直接下载会非常慢...，可以使用一些如迅雷等下载器下载该数据集，然后通过参数--filepath指定下载的压缩文件路径，如/home/test/data_aishell.tgz。

4K2 0

glusterfs问题诊断方法

trusted.glusterfs.pathinfo -e text /data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell.../' from absolute path names # file: data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell...POSIX(/speech_v6/data2/brick):node.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell...aishell...ai-storage-center-prd-10-194-39-6.v-bj-4.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell

5922 0

01 语音识别概述

• CHiME-5/6:聚会聊天，需申请中文数据 • THCHS-30，30小时，开源(http://openslr.org/18/) • HKUST，150小时，电话对话，LDC版权 • AIShell...-1:178小时，开源(http://openslr.org/33/) • AIShell-2:1000小时，开源需申(http://www.aishelltech.com/aishell_2)• aidatatang

4.2K2 0

微调Whisper模型和加速推理

Whisper-Finetune 使用环境： Anaconda 3 Python 3.8 Pytorch 1.12.1 Ubuntu 18.04 GPU A100-PCIE-40GB*1 项目主要程序介绍 aishell.py...：制作AIShell训练数据。...本项目提供了一个制作AIShell数据集的程序aishell.py，执行这个程序可以自动下载并生成如下列格式的训练集和测试集，注意：这个程序可以通过指定AIShell的压缩文件来跳过下载过程的，如果直接下载会非常慢...，可以使用一些如迅雷等下载器下载该数据集，然后通过参数--filepath指定下载的压缩文件路径，如/home/test/data_aishell.tgz。...[ { "audio": { "path": "dataset/audio/data_aishell/wav/test/S0764/BAC009S0764W0489

2.4K3 0

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

(aishell1 表示 AISHELL-1 测试集，aishell2 表示 AISHELL-2 iOS 测试集，ws_net 和 ws_meeting 分别表示 WenetSpeech 的 Internet

1941 0

依图要修AI语音双学位，左手摸底考第一名成绩单，右手开放平台方案

No.1成绩单依图这次秀出的入局成绩单，源自全球最大的中文开源数据库AISHELL-2。该数据库表现中，依图短语音听写的字错率（CER）为3.71%，比之原最好成绩还好20%，大幅刷新纪录。...语音领域玩家想必对AISHELL-2并不陌生。 ? 这是AISHELL Foundation和希尔贝壳宣布的开源数据库，数据规模达1000小时，是目前全球最大的中文开源数据库。...AISHELL-2由1991名来自中国不同口音区域的发言人参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等...其中，在AISHELL2-2018A-EVAL数据集中，依图的识别准确率达96.29%，字错率3.71%，比原最好成绩高出20%。但成绩单之余，或许你也好奇：依图为啥要进语音领域？

6162 0

语音识别系列︱paddlespeech的开源语音识别模型测试（三）

预训练模型包括：模型语言采样率 conformer_wenetspeech zh 16k conformer_online_multicn zh 16k conformer_aishell zh...16k conformer_online_aishell zh 16k transformer_librispeech en 16k deepspeech2online_wenetspeech zh 16k...deepspeech2offline_aishell zh 16k deepspeech2online_aishell zh 16k deepspeech2offline_librispeech en

8.4K2 0

实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选

(实际上是代码功力太差…), 语料采用Aishell 的170h语音....{"audio_filepath": "/media/nlp/23ACE59C56A55BF3/wav_file/aishell/data_aishell/wav/train/S0002/BAC009S0002W0122....wav", "duration": 5.999, "text": "而对楼市成交抑制作用最大的限购"} 您可以通过example/aishell/run_data.sh 脚本中的第一部分生成该文件，也可以修改参数后运行...data/aishell/aishell.py 来生成,同时若指定目录不包含指定文件，则自动下载语料并解压。

5.4K1 0

一句话复制你的音色：快手单样本语音转换研究入选ICASSP 2021

实验对比文章中对比了几种当前最优的基于单样本的语音转换网络，基线模型和文章中提出的 SAVC 模型均使用 Aishell-1 训练集的 340 人中文数据作为训练数据集；选择 Aishell-1 测试集中的集外说话人作为测试时使用的原始说话人和目标说话人...这可能是因为 Aishell-1 的训练集中女性数据更多，性别不平衡导致 GST-VC 表征不同的目标说话人能力有区别。...这是因为 Aishell-1 语料库是语音识别数据集，由移动电话记录。音频中存在许多噪声，例如混响，信道噪声等，这些均不利于 Griffin Lim 算法从频谱参数中预测相位，导致合成语音质量变差。

1.1K4 0

飞桨开发者又出新工具！让AI也能听懂你的话

Windows 10 or Ubuntu 18.04 源码地址：https://github.com/yeyupiaoling/PPASR 模型下载本项目在各个公开数据集上的字错率见下表：说明：aishell...dataset/test.wav 消耗时间：132, 识别结果: 近几年不但我用书给女儿儿压岁也劝说亲朋不要给女儿压岁钱而改送压岁书, 得分: 94 数据准备本项目使用了公开的中文普通话语音数据集，分别是Aishell...cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python...我把aishell.py的文件单独下载，然后替换download()函数，再执行该程序，就会自动解压文件文本生成数据列表。...# 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz

7532 0

阿里「杀手锏」级语音识别模型来了！推理效率较传统模型提升10倍，已开源

效果SOTA，推理效率最高提10倍最终，在学术界常用的中文识别评测任务AISHELL-1、AISHELL-2及WenetSpeech等测试集上， Paraformer-large模型均获得了最优效果。...在AISHELL-1上，Paraformer在目前公开发表论文中，为性能（识别效果&计算复杂度）最优的非自回归模型，且Paraformer-large模型的识别准确率远远超于目前公开发表论文中的结果（dev

7442 0

依图做语音了！识别精度创中文语音识别新高点

依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%，比原业内领先者提升约20%，大幅刷新现有纪录。比对各家语音识别算法，当今智能语音战场，英雄唯讯飞与依图尔？...技术上，在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）达到3.71%[1]，相比原业内领先者提升约20%，大幅刷新现有纪录。...在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集，以及来自第三方的近场口音测试集（Accent）、近场安静聊天测试集（Chat）、语音节目测试集、电话测试集、远场测试集等测试场景中，依图均处于业界领先水平...其中，在AISHELL2的-2018A-EVAL数据集中，依图的识别准确率高达96.29%，字错率仅为3.71%，领先第二名约20%。...注释 [1] 一般在英文语音识别中用“词错率”（WER），因为最小单元是词；中文语音识别一般使用“字错率”（CER），因为最小单元是字. [2] AISHELL-2是AISHELL Foundation

1.8K3 0

Github 开源现在最好的TTS声音克隆

/github.com/fishaudio/fish-speech MockingBird 中文支持普通话并使用多种中文数据集进行测试：aidatatang_200zh, magicdata, aishell3..., biaobei, MozillaCommonVoice, data_aishell 等 PyTorch 适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU

3311 0

基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech 模型下载数据集卷积层数量循环神经网络的数量循环神经网络的大小测试集字错率下载地址 aishell...mirrors.aliyun.com/pypi/simple/ 数据准备在download_data目录下是公开数据集的下载和制作训练数据列表和词汇表的，本项目提供了下载公开的中文普通话语音数据集，分别是Aishell...cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python...然后把download()函数改为文件的绝对路径，如下，我把aishell.py的文件单独下载，然后替换download()函数，再执行该程序，就会自动解压文件文本生成数据列表。...# 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz

2.8K1 0

CIF：基于神经元整合发放的语音识别新机制

基于CIF的模型不仅有效地支持了在线识别、边界定位及声学 Embedding 提取，而且在两个中文基准语音识别集（HKUST、AISHELL-2）上创造了SOTA的性能。...如图3所示，在中文朗读数据集AISHELL-2上，由于输出标签间的声学边界较为清楚，基于CIF的模型获得了突出的性能表现，显著地超过了Chain模型的性能，创造了state-of-the-art的字错误率结果...在中文朗读数据集AISHELL-2上，CIF模型与已发表模型的字错误率对比 ? 图4. 在中文电话数据集HKUST上，CIF模型与已发表模型的字错误率对比 ----

2K2 0

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

Aishell 数据集我们使用 Aishell 178 小时训练集作为有监督数据进行训练，分别对比了使用 FBank 特征、Wav2vec 2.0 BASE/LARGE 模型特征和 HuBERT BASE...同时，我们额外对比了使用 WenetSpeech train_l 集 1 万小时中文数据进行训练时，其在 Aishell 测试集上的效果。...表 1：不同模型在 Aishell 测试集上的字错误率（CER%）结果根据表 1 结果可以看到，通过结合上万小时无监督数据训练的预训练模型，下游 ASR 任务效果均有显著提升。

2.6K3 0

10 端到端语音识别

. • 实践:有GPU机器的话，可以跑一下egs下面的aishell1/2 • Speech Transformer: https://github.com/kaituoxu/Speech-Transformer

1.7K2 0

基于Kersa实现的声纹识别

20170001_1-OS/20170001P00001I0002.wav 1 dataset/ST-CMDS-20170001_1-OS/20170001P00001I0003.wav 1 1、本项目默认是支持Aishell...Aishell：http://www.openslr.org/resources/33 Free ST-Chinese-Mandarin-Corpus：http://www.openslr.org/resources

3.7K6 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

语音识别系列︱paddlehub的开源语音识别模型测试（二）

rv1106&rv1109&rv1126移植sherpa-onnx 实现TTS功能

微调Whisper语音识别模型和加速推理

glusterfs问题诊断方法

01 语音识别概述

微调Whisper模型和加速推理

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

依图要修AI语音双学位，左手摸底考第一名成绩单，右手开放平台方案

语音识别系列︱paddlespeech的开源语音识别模型测试（三）

实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选

一句话复制你的音色：快手单样本语音转换研究入选ICASSP 2021

飞桨开发者又出新工具！让AI也能听懂你的话

阿里「杀手锏」级语音识别模型来了！推理效率较传统模型提升10倍，已开源

依图做语音了！识别精度创中文语音识别新高点

Github 开源现在最好的TTS声音克隆

基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

CIF：基于神经元整合发放的语音识别新机制

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

10 端到端语音识别

基于Kersa实现的声纹识别

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐