FunASR语音识别GUI界面应用

夜雨飘零

发布于 2023-10-09 08:24:14

2.4K0

文章被收录于专栏：CSDN博客CSDN博客

前言

本文将介绍一个基于FunASR开发的语音识别界面应用，这个应用可以选择本地音频，也可以录音识别。支持多种音频格式和视频格式，可以对识别的结果加上时间戳做成字幕。

安装环境

安装Pytorch，根据自己机器的情况可以选择安装CPU版本或者GPU版本的Pytorch。

# 安装CPU版本的Pytorch
conda install pytorch torchvision torchaudio cpuonly -c pytorch
# 安装GPU版本的Pytorch
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

安装ffmpeg和pyaudio。

conda install ffmpeg pyaudio

安装其他依赖库。

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

使用

执行main.py即可启动程序，一共有四个功能，分别是短语音识别、长语音识别、录音识别、播放音频。

短音频识别，可以选择一个较短的音频或者视频，便可得到结果，这个长度没有固定的限制，一般把小于30秒或者50秒的作为短音频。

长音频识别，长音频识别有两种模型，第一种是不添加时间戳的，全部结果拼接起来。长音频识别的方式其实就是使用VAD模型把长音频裁剪成多段的短音频，然后再识别的。

长音频识别（时间戳），第二种是显示时间戳，可以知道每句话开始的时间和结束的时间，可以用于制作字幕。

录音识别，录音识别是一边说话一边出结果，这种识别方式是流式的。当点击停止录音之后，是使用全部的录音再次执行识别，提高最终的准确率。

播放音频，当选择了音频或者录音识别了，可以点击播放音频按钮播放音频，只能播放音频格式，不支持播放视频格式。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2023-10-08，如有侵权请联系 cloudcommunity@tencent.com 删除

gui

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

FunASR语音识别GUI界面应用

FunASR语音识别GUI界面应用

前言

安装环境

使用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐