腾讯云

文章/答案/技术大牛

发布

开源的音乐生成基础模型，类似于Suno.ai，它能够将歌词转换成完整的歌曲，支持多种音乐风格、语言和演唱技巧。

文章来源：企鹅号 - 大概是BUG

混元大模型产品特惠

由腾讯公司全链路自研，在高质量内容创作、数理逻辑、代码生成和多轮对话上性能表现卓越，处于业界领先水平。新用户19元起

YuE

开源的全曲音乐生成基础模型，类似于Suno.ai，但完全开源。它能够将歌词转换成完整的歌曲（lyrics2song），生成包含人声和伴奏的完整歌曲，支持多种音乐风格、语言和演唱技巧。

Github地址

https://github.com/multimodal-art-projection/YuE

在线体验

https://map-yue.github.io/

功能与特点

•全曲生成：YuE能够生成完整的歌曲，包括人声和伴奏，时长可达数分钟。

•多语言支持：支持多种语言的歌词，包括英语、普通话、粤语、日语和韩语。

•多风格支持：可以生成多种音乐风格，如流行、电子、民谣等。

•音乐生成模式：支持两种主要模式：

•CoT（Chain of Thought）模式：不依赖参考音频，直接生成音乐。

•ICL（In-Context Learning）模式：通过提供参考音频片段，生成与参考音频风格相似的音乐。

技术背景与挑战

•现有技术局限：尽管现有的文本条件音乐生成模型在生成短片段非人声音乐方面取得了高质量成果，但生成包含人声和伴奏的完整歌曲（时长几分钟）仍然是一个挑战。

•挑战点：

1. 音乐的长上下文特性。

2. 音乐信号的复杂性（相比语音或音效）。

3. 歌词内容的扭曲（如押韵、重复等）。

4. 缺乏平行数据（歌词-音频对）。

技术方法

•模型架构：YuE 基于llama家族，提出了一系列开源基础语言模型。

•关键技术创新：

1.语义增强音频分词器：降低训练成本，加速收敛。

2.双标记技术：在不修改 llama 解码器架构的情况下，实现人声与器乐的同步建模。

3.歌词链式思考：允许模型在单个上下文中逐步生成整首歌曲。

4.三阶段训练方案：确保更好的可扩展性、音乐性和歌词可控性。

发表于: 2025-01-312025-01-31 10:07:43
原文链接：https://page.om.qq.com/page/OHNUEHtOoK9vvPf1CxU6W78g0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

开源的音乐生成基础模型，类似于Suno.ai，它能够将歌词转换成完整的歌曲，支持多种音乐风格、语言和演唱技巧。

混元大模型产品特惠

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐