本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
# 安装CPU版本的Pytorch
conda install pytorch torchvision torchaudio cpuonly -c pytorch
# 安装GPU版本的Pytorch
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install ffmpeg pyaudio
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
执行main.py
即可启动程序,一共有四个功能,分别是短语音识别、长语音识别、录音识别、播放音频。