文下载链接在文章末尾,分享来至嘟嘟实验室,每天分享好资源。
ChatTTS增强版最新版本已经发布,本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能,并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。
批量txt
新增支持多个txt文本批量导入,会针对每个txt文本进行处理。
听取大家的建议,批量处理后的txt会按照文件名来保存。
导出路径为:
output_audio/你的txt名/
每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。
导出的完整的音频路径为:
output_audio/你的txt名/合并/
导出的音频切片路径为:
output_audio/你的txt名/切片/
导出的增强音频切片路径为:
output_audio/你的txt名/增强切片/
SRT导出
批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。
srt会导出路径:
output_audio/你的txt名/你的txt名.srt
srt文本内容
这里说下,srt某些情况下会有误差,需检查下时间戳。
数字转换
由于ChatTTS不能很好地去朗读数字,这里做了一个转换。
比如这句话:
我有10块4090显卡,今天出门丢了1块,很难受,今天是2024年。
这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好地去识别,这里最好的办法就是加空格
修改后的文字:
我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。
语速调整
增加了语速调节。默认值为0。最高是10,建议调到5或者6,10的话会有奇怪的英文读音混进去。
口语化调整
这里对这个参数的理解就是口语化,或者是说话的自然程度。
比如还是刚才那句:
我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。
其他参数相同,oral为0的效果:
oral口语化程度为0示范,嘟嘟实验室,8秒
oral为5的效果:
oral口语化程度为5示范,嘟嘟实验室,8秒
可以听到,在oral为5的情况下自动添加了:就、啊等语气或者连接词来让音频更加自然。
笑声调整
控制音频的笑声程度。
当然你也可以在文字中输入[laugh]来手动添加笑声。
生成的效果:
laugh笑声效果展示,嘟嘟实验室,13秒
停顿调整
这个参数也可以在文本中输入[uv_break]来手动添加停顿。
问题修复
uv_break问题
首先说下上次最大的问题,好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉,那是个我漏掉的bug。
这个版本我针对这个问题做了调整,大家可以试下。
如果还有这个问题可以将break调整为0,关闭提炼文本尝试下。
IP端口问题
V1版本的ip和端口号是固定的,有些朋友电脑上8080端口是禁用的,造成访问不了网页的问题,或者是开了代理进不去的问题。
这个版本默认ip是127.0.0.1,端口号是自动获取本机开放空闲的端口。
如果你想要自定义ip或端口号,可在整合包根目录下找到config.ini文件。
修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。
ip和端口修改为你想要设定的值即可。
实验性选项
这里是开发中的一个测试选项,还不完善。可自行测试音色固定程度,如果开启后生成的结果无效果,或异常,关掉即可。
已知地是开启后会导致N卡用户音频增强过程变得极慢!!!慎重开启
配置要求
以下是整合包运行所需配置
WIN
Windwos10/11操作系统
支持CPU/GPU
MAC
Apple Silicon M系列芯片、Intel 芯片
MacOS 10.13以上版本
关于显存,最低4G显存(不开启音频增强地情况下)
Mac 由于cuda原因目前只支持cpu进行推理。
下载链接「ChatTTS增强版V2」链接:https://pan.quark.cn/s/330366c703e0
领取专属 10元无门槛券
私享最新 技术干货