CosyVoice是阿里通义实验室一个开源的中文语音合成系统,基于深度学习技术,能够生成自然、流畅的中文语音。
本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。
模型开源地址:
https://github.com/FunAudioLLM/CosyVoice
模型详情:
CosyVoice是一个完整的端到端中文语音合成框架,具有以下特点:
基于深度学习的声学模型
支持多说话人合成
提供预训练模型
部署便捷,可用于实际应用场景
开源免费,支持二次开发
魔塔社区上有论文和demo等一些模型详细的东西
模型详情:
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
如果网络慢或者直接用不了可以用国内的镜像安装
git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git
下一步:
cd CosyVoice
git submodule update --init --recursive
安装相关依赖:
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-
sudo apt-get install sox libsox-dev
模型下载:
方法一:
1.SDK模型下载
新建一个python文件然后复制以下代码运行等待安装。
from modelscope import snapshot\_download
snapshot\_download('iic/CosyVoice2-0.5B', local\_dir='pretrained\_models/CosyVoice2-0.5B')
snapshot\_download('iic/CosyVoice-300M', local\_dir='pretrained\_models/CosyVoice-300M')
snapshot\_download('iic/CosyVoice-300M-25Hz', local\_dir='pretrained\_models/CosyVoice-300M-25Hz')
snapshot\_download('iic/CosyVoice-300M-SFT', local\_dir='pretrained\_models/CosyVoice-300M-SFT')
snapshot\_download('iic/CosyVoice-300M-Instruct', local\_dir='pretrained\_models/CosyVoice-300M-Instruct')
snapshot\_download('iic/CosyVoice-ttsfrd', local\_dir='pretrained\_models/CosyVoice-ttsfrd')
2.git模型下载,请确保已安装git lfs
安装git lfs
git lfs install
mkdir -p pretrained\_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained\_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained\_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained\_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained\_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained\_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained\_models/CosyVoice-ttsfrd
等模型和环境依赖都下载好之后
进入目录输入:
python3 webui.py --port XXXX --model\_dir pretrained\_models/CosyVoice-300M
--port XXXX 自定义端口
--model_dir pretrained_models/CosyVoice-300M 根据需要加载模型
启动成功后,浏览器访问http://公网ip:指定的端口
(这里可能涉及端口映射)
访问不到麦克风是因为是用http协议去访问的服务器,会被浏览器识别为不安全的链接。
其他浏览器搜索:XXX浏览器在http协议下无法调用摄像头和麦克风的问题
以上步骤都调试好之后访问相应的地址回显示如下页面:
1.输入合成文本出输出想要合成的语音
2.选择模式按照操作步骤提示进行操作
ps:输入prompt文本是要输入音频对应的文字
最后点击生成音频即可
本博客参考:
如有不足之处可以访问参考链接,欢迎讨论交流。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。