我现在粉丝少,什么都敢教,点击下方卡片『AI实战家』
每天解锁一个AI新技能
本篇重点
GPT-SoVITS_V2 第二代语音克隆与合成工具更新要点:
1:训练数据集从 两千小时扩展至五千小时,零样本(Zero-Shot)性能显著增强,合成音色更接近目标声音(文中会有演示对比)
2:增强了对低音质参考音频的处理能力,通过高频补偿和降噪技术,对网络常见的高频缺失或沉闷音频进行修复,合成效果更清晰、自然
3:在原有中文、英语、日语基础上,新增对韩语和粤语的支持,现支持中、英、日、韩、粤五种语言的跨语种合成(通过 FunASR 和 Whisper 工具增强粤语和韩语的自动标注精度)
4:针对中英文文本,优化了多音字的识别与发音规则,减少吞字问题,提升合成语音的流畅度和准确性
5:支持半精度与全精度推理模式,适配不同显卡性能(如30/40系显卡推荐半精度)
6:新增 语速调节 和 音色融合 功能,支持生成语音的节奏控制和音色混合(两个不同音色可以进行融合,文中会有演示对比)
7:音色替换,适用于匿名客服、语音留言等场景(文中会有演示对比)
教程内容包括
1:零样本合成音色使用方法及效果对比
2:不同音色融合输出使用方法及效果展示
3:音色替换(变声)使用方法功能展示
4:声音克隆流程教学及效果对比
整合包获取:
发送【整合包】获取,或到【AI资料】菜单栏下的【AI整合包】获取
开始正文
一:整合包安装
下载解压,安装路径不要有中文
一代模型放在图中圈中的地方
二代模型克隆后在图中圈中的地方
二:零样本合成音色(直接使用音色进行合成)
1:将你想要的音色放入GPT-SoVITS-v2根目录下的参考音频文件夹
双击推理_半精度.bat(演示所用的是40系显卡8G显存),等待加载完成
参考音频列表选择你所需要的音色,然后选择音色对应的语种,然后输入你所想要合成的文本,最后选择你所需要合成的语种和语速,点击合成语音(演示所用的为同样的文本,方便效果展示)
参考音频(自己上传的音频)
合成音频(AI合成效果)
关于下载说明一下,如果角色合成比较满意,点击添加当前音频记录,然后点击下载
2:不同音色融合输出(两种或多种声音融合)
打开软件后,将你想要融合的声音上传(建议性别一样的),然后选择文本声音的合成语种,点击合成
参考音频(自己上传的音频)
合成音频(AI合成效果)
3:音色替换(使目标声音替换源音频声音)
双击变声器.bat
首先上传目标音色的音频,然后选择参考音频(需先将需要变音的源音频上传到参考音频文件夹),最后点击合成
目标音频(最后输出的是这个声音)
需要变声的音频(源声音的音调不变,声音会变)
合成音频(AI合成效果)
4:声音克隆教学(和第一代流程相同,学过的同学可以直接跳过这里)
将需要克隆的声音,使用剪映完成去掉背景音及语音降噪,然后放到无中文路径的文件夹内,然后点击go-webui.bat,等待加载完成
语音切分
复制音频文件夹路径,粘贴到如图所示的位置,点击开始语音切割,等待切割完成
离线批量ASR(语音转文本)
直接点击开始离线批量ASR即可(无需像一代一样再粘贴路径),等待ASR任务完成
语音文本校对标注(一定要对文本进行校对,不然合成效果会变差)
直接点击开启WEBUI(无需像一代一样再粘贴路径)
修改后点击Submit Text进行保存,点击Next Index前往下一页,直到完成所有的打标
训练集格式化
输入模型名称,版本默认V2,然后点击一键三连,等待进程结束
微调训练(模型训练)
参数保持默认,点击开启SoVITS训练,等待训练完成
参数保持默认,勾选开启dpo训练选项,点击开启GPT训练,等待训练完成
如果爆显存,适当调低bs
模型使用
双击推理_半精度.bat(演示所用的是40系显卡8G显存),等待跳转网页后,点击刷新模型路径,选择刚才克隆的模型,然后选择参考音频和语种,下边复制你所需要合成的语音文本,选择文本语种,调节语速(可以保持默认),点击合成语音,然后将满意的音频添加当前音频记录,然后点击下载即可
克隆效果展示
领取专属 10元无门槛券
私享最新 技术干货