前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >【大模型运用】CosyVoice-ubuntu系统部署

【大模型运用】CosyVoice-ubuntu系统部署

原创
作者头像
云帆沧海
发布2025-02-08 23:56:20
发布2025-02-08 23:56:20
3230
举报
文章被收录于专栏:人工智能人工智能

CosyVoice是阿里通义实验室一个开源的中文语音合成系统,基于深度学习技术,能够生成自然、流畅的中文语音。

本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。

模型开源地址:

https://github.com/FunAudioLLM/CosyVoice

模型详情:

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

一、CosyVoice简介

CosyVoice是一个完整的端到端中文语音合成框架,具有以下特点:

基于深度学习的声学模型

支持多说话人合成

提供预训练模型

部署便捷,可用于实际应用场景

开源免费,支持二次开发

魔塔社区上有论文和demo等一些模型详细的东西

模型详情:

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

在这里插入图片描述
在这里插入图片描述

二.在服务器上部署CosyVoice

1.Anconda创建环境

代码语言:bash
复制
conda create -n cosyvoice -y python=3.10

conda activate cosyvoice

2.克隆代码仓库

代码语言:bash
复制
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

如果网络慢或者直接用不了可以用国内的镜像安装

代码语言:bash
复制
git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git

下一步:

代码语言:bash
复制
cd CosyVoice

git submodule update --init --recursive

安装相关依赖:

代码语言:bash
复制
conda install -y -c conda-forge pynini==2.1.5

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-

sudo apt-get install sox libsox-dev

模型下载:

方法一:

1.SDK模型下载

新建一个python文件然后复制以下代码运行等待安装。

代码语言:bash
复制
from modelscope import snapshot\_download

snapshot\_download('iic/CosyVoice2-0.5B', local\_dir='pretrained\_models/CosyVoice2-0.5B')

snapshot\_download('iic/CosyVoice-300M', local\_dir='pretrained\_models/CosyVoice-300M')

snapshot\_download('iic/CosyVoice-300M-25Hz', local\_dir='pretrained\_models/CosyVoice-300M-25Hz')

snapshot\_download('iic/CosyVoice-300M-SFT', local\_dir='pretrained\_models/CosyVoice-300M-SFT')

snapshot\_download('iic/CosyVoice-300M-Instruct', local\_dir='pretrained\_models/CosyVoice-300M-Instruct')

snapshot\_download('iic/CosyVoice-ttsfrd', local\_dir='pretrained\_models/CosyVoice-ttsfrd')

2.git模型下载,请确保已安装git lfs

安装git lfs

代码语言:bash
复制
git lfs install
代码语言:bash
复制
mkdir -p pretrained\_models

git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained\_models/CosyVoice2-0.5B

git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained\_models/CosyVoice-300M

git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained\_models/CosyVoice-300M-25Hz

git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained\_models/CosyVoice-300M-SFT

git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained\_models/CosyVoice-300M-Instruct

git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained\_models/CosyVoice-ttsfrd

3.启动

等模型和环境依赖都下载好之后

进入目录输入:

代码语言:bash
复制
python3 webui.py --port XXXX --model\_dir pretrained\_models/CosyVoice-300M

--port XXXX 自定义端口

--model_dir pretrained_models/CosyVoice-300M 根据需要加载模型

启动成功后,浏览器访问http://公网ip:指定的端口

(这里可能涉及端口映射)

4.浏览器访问不到麦克风问题解决

访问不到麦克风是因为是用http协议去访问的服务器,会被浏览器识别为不安全的链接。

谷歌浏览器参考:https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

其他浏览器搜索:XXX浏览器在http协议下无法调用摄像头和麦克风的问题

运行结果

以上步骤都调试好之后访问相应的地址回显示如下页面:

在这里插入图片描述
在这里插入图片描述

使用方法

1.输入合成文本出输出想要合成的语音

2.选择模式按照操作步骤提示进行操作

ps:输入prompt文本是要输入音频对应的文字

最后点击生成音频即可

本博客参考:

https://blog.csdn.net/weixin_63782093/article/details/141320485?fromshare=blogdetail&sharetype=blogdetail&sharerId=141320485&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

如有不足之处可以访问参考链接,欢迎讨论交流。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、CosyVoice简介
  • 二.在服务器上部署CosyVoice
    • 1.Anconda创建环境
    • 2.克隆代码仓库
    • 3.启动
    • 4.浏览器访问不到麦克风问题解决
    • 运行结果
  • 使用方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档