如今,通过AI技术克隆声音已经变得非常简单。仅使用开源的代码,几分钟内即可完成快速声音克隆。
过去的一些声音复刻项目存在诸多问题:要么环境搭建复杂、难以复现;要么操作步骤繁琐,入门时易出现各种bug,令人头疼。
而今天介绍的阿里最新开源项目FunAudioLLM彻底解决了这些问题。它无需任何样本即可完成声音克隆,框架主要包含CosyVoice和SenseVoice两个项目:
整合这两个项目,即可轻松实现语音到语音翻译(S2ST)。例如,可模仿中文语调进行中文转英文的语音翻译。
CosyVoice相比传统项目具有以下明显优势:
具体操作步骤非常简单:
例如,上传30秒“周杰伦”演讲的视频,仅需4步即可复刻声音:
通过实际测试发现,合成效果出色,易于操作。
CosyVoice主要包含以下四个核心组件:
为构建高质量的多语言数据集,项目使用了内部工具进行语音检测、信噪比估计、说话人分离等处理。此外,利用SenseVoice-Large和Paraformer生成伪标签,通过强制对齐模型进一步精炼数据,以确保数据的准确性和标点符号精度。数据集规模如下:
为了实现图片说话,可以使用免费的软件“SadTalker”。
操作步骤非常简单,仅需三步:
AI声音克隆和图片驱动技术不再只是技术圈的展示,而真正开始进入普通人的创意生活。
过去打造“数字人”需要昂贵设备和专业团队,如今只需一台普通电脑,几分钟即可完成从声音克隆到图像驱动说话的全部流程。技术门槛的降低,让每个人都能拥有以往只有大厂具备的AI内容创作能力。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。