前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI女友养成记 CosyVoice vs MiniCPM-o2.6

AI女友养成记 CosyVoice vs MiniCPM-o2.6

作者头像
疯狂的KK
发布2025-01-20 20:11:56
发布2025-01-20 20:11:56
54500
代码可运行
举报
文章被收录于专栏:Java项目实战Java项目实战
运行总次数:0
代码可运行

本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,3s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。

CosyVoice 是什么?

CosyVoice 是阿里巴巴通义实验室推出的一款开源语音生成大模型,专注于语音合成技术。它通过先进的技术架构,能够将文本内容转化为高度自然、拟人化的语音输出。其最新版本 CosyVoice 2.0 在发音准确性、音色一致性、韵律自然度等方面都有显著提升,并支持多语言和跨语言语音合成。

CosyVoice 的应用场景

智能助手和聊天机器人:为智能助手提供自然流畅的语音输出,提升用户体验。

有声读物和音频内容制作:生成高质量的有声读物、音频书籍,支持多种语言和方言。

视频配音和解说:为教育视频、企业宣传片、电影和电视剧等提供配音服务。

智能客服和呼叫中心:在客户服务中提供语音交互,提高服务效率和客户满意度。

教育和语言学习:辅助语言学习,提供标准发音示范,帮助学习者提高发音准确性。

娱乐和内容创作:用于制作名人模仿秀、动画配音等,为观众带来全新的视听体验。

如何实现实时对话?

CosyVoice 2.0 支持流式推理,能够实现实时语音合成,适合需要即时响应的场景。以下是实现实时对话的关键技术:

流式推理:CosyVoice 2.0 提出了离线和流式一体化建模方案,支持双向流式语音合成,首包合成延迟低至150ms。

低延迟设计:通过分块感知因果流匹配模型(Chunk-Aware Causal Flow Matching Model),模型能够在保证高质量语音输出的同时,快速响应用户输入。

多语言和情感控制:支持多语言输入和情感指令控制,用户可以实时调整语音的情感、语气和风格。

如何部署和使用?

不建议使用整合包,下载全量模型版本,支持语速调节

视频版本

文字版本

  1. 下载项目
  2. 本地下载链接:https://pan.quark.cn/s/dc4ad7aac2ab
  3. git 安装
代码语言:javascript
代码运行次数:0
运行
复制
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# If you failed to clone submodule due to network failures, please run following command until success
cd CosyVoice
git submodule update --init --recursive

2.环境配置

代码语言:javascript
代码运行次数:0
运行
复制
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

下载模型

代码语言:javascript
代码运行次数:0
运行
复制
# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
代码语言:javascript
代码运行次数:0
运行
复制
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl
代码语言:javascript
代码运行次数:0
运行
复制

启动

代码语言:javascript
代码运行次数:0
运行
复制
python webui.py

成功截图

测试

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赵KK日常技术记录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档