
多次分享了AI语音克隆的项目,也横向测评了目前很火的几个项目,测评个人感受如下,目前最强的Fish Speech S2 Pro从开源到现在一直霸榜开源项目TOP1,上期给大家分享的时候,苦于本地工作流非常慢,且整合包一直没有加速方案,给大家推荐了在线版,终于有整合包了,速度大大提升且支持GGUF量化模型,以前属于基本跑不动的。

1.Fish Speech S2 Pro 开源天花板 支持情绪控制 商业版本成熟 本地Comfyui会很慢,目前在整体主观测试上最强!!!github上的stars最高
语音样本:
✅ 情感表现力:10分(碾压其他模型!轻重音、停顿完全贴合文案要求,温柔中带坚定,没有一丝机械感,读长句时情绪也能保持连贯
2.LongCat-AudioDiT 个人给到最拉,啥也不是,超过30S的语音,语速自动加快,调节各种参数无解,但是只要不超过30S不会有这个问题,微信群无任何人回答任何问题。
语音样本:
✅ 整体测评:1分,社区0互动,不解决任何问题,给1分都是高的
3.VoxCPM2 很强,但是到不了天花板, 超长文本(90min)、50 + 语言、流式实时
实测表现:
✅ 音色保真度:8分(还原度不错,音色清晰无杂音,44.1kHz高保真带来的质感很出色)
✅ 情感表现力:7分(情感偏中性,能表现“简洁明快”的语气,但复杂情感表达不足,适合不需要强情感的场景)
✅ 流畅度:10分(推理速度极快,秒出结果,短句、长句都无卡顿,稳定性拉满)
✅ 部署门槛:2分(最低4-6G显存就能运行,消费级显卡无压力,端侧部署友好,普通人也能轻松上手)
4.OmniVoice 600+语言支持 其他的没深度体验
5.Qwen3-TTS 全方位战士,哪哪都能打,对中文支持最好,就是情绪控制比不上Fish Speech S2 Pro,但是占用显存低,个性化空间非常高,个人最爱
语音样本
6.index TTS 情感解耦、精准时长控制 个人第二最爱,显存占用低,但是启动稍微慢点,没什么缺点
谁是2026开源TTS天花板?Fish Speech S2 Pro:一句话操控情感 还是美团的高保真LongCat-AudioDiT
告别付费!阿里 Qwen3-TTS 开源封神!97ms 低延迟 + 3 秒克隆,碾压 GPT-4o-Audio 附整合包
B站黑科技IndexTTS2情感拉满、表情级演技!横空出世,开源界新神已就位!
【AI声音克隆TTS】阿里CosyVoice V3.0 最新整合包,一键克隆音色,解压即用
AI声音克隆TTS---VoxCPM2 – OpenBMB开源 克隆良子味真足
语音样本

使用手册
可以下载无任何环境的纯净版,根据个人的显卡来使用,有两个显存版本,高显存是需要20+的,基本都是90系列的,也支持了低显存的CPP版本,点击安装会根据显卡自动安装需要的环境,需要联网

语音克隆上传一段音频,并且保存一个名字,

就可以进行克隆了

原音频效果
六尺之内,我是无敌的,掠火神枪最终式 —— 燎原百斩!枪心如火!枪如我心!
克隆文案为
听!风在咆哮,战鼓在轰鸣!
我云樱今日便要率领千军万马,踏碎一切阻挡!
热血已沸腾,长剑已出鞘!
随我一同杀入敌阵吧——
这一战,我们必胜!


多人对话


使用完毕记得清理缓存

7款模型各有侧重,没有绝对的“最好”,只有最适合自己的,结合实测结果,给大家整理了清晰的选型指南,直接对号入座即可:
