YuE
开源的全曲音乐生成基础模型,类似于Suno.ai,但完全开源。它能够将歌词转换成完整的歌曲(lyrics2song),生成包含人声和伴奏的完整歌曲,支持多种音乐风格、语言和演唱技巧。
Github地址
https://github.com/multimodal-art-projection/YuE
在线体验
https://map-yue.github.io/
功能与特点
•全曲生成:YuE能够生成完整的歌曲,包括人声和伴奏,时长可达数分钟。
•多语言支持:支持多种语言的歌词,包括英语、普通话、粤语、日语和韩语。
•多风格支持:可以生成多种音乐风格,如流行、电子、民谣等。
•音乐生成模式:支持两种主要模式:
•CoT(Chain of Thought)模式:不依赖参考音频,直接生成音乐。
•ICL(In-Context Learning)模式:通过提供参考音频片段,生成与参考音频风格相似的音乐。
技术背景与挑战
•现有技术局限:尽管现有的文本条件音乐生成模型在生成短片段非人声音乐方面取得了高质量成果,但生成包含人声和伴奏的完整歌曲(时长几分钟)仍然是一个挑战。
•挑战点:
1. 音乐的长上下文特性。
2. 音乐信号的复杂性(相比语音或音效)。
3. 歌词内容的扭曲(如押韵、重复等)。
4. 缺乏平行数据(歌词-音频对)。
技术方法
•模型架构:YuE 基于llama家族,提出了一系列开源基础语言模型。
•关键技术创新:
1.语义增强音频分词器:降低训练成本,加速收敛。
2.双标记技术:在不修改 llama 解码器架构的情况下,实现人声与器乐的同步建模。
3.歌词链式思考:允许模型在单个上下文中逐步生成整首歌曲。
4.三阶段训练方案:确保更好的可扩展性、音乐性和歌词可控性。
领取专属 10元无门槛券
私享最新 技术干货