出品|开源中国
谷歌研究院宣布推出 MusicLM,这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务,并以 24 kHz 的频率生成音乐。
无论文本描述是一段话、一个故事,或仅为一个单词,MusicLM 都能生成对应对应的音乐,还能根据文本中的年代、时间、地点等要素来调整音乐的风格。
MusicLM 主页
中有许多样本,可以看到,文本描述中有许多氛围描述的语句,比如 “迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”,也有一些具体的应用场景,比如 “街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合 。
除了长文本,MusicLM 也能从一个单词或短语中创造出对应的旋律,比如 “摇摆 “、” 轻松的爵士 “、” 旋律技术 “等:
除此之外还可以按” 故事模式 “生成音乐,只需设定对应的时间戳,MusicLM 就会根据时间戳生成不同风格的音乐(不过转换起来非常生硬,有种” 画风突变 “的感觉)。
除了上述生成方式,MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐,如” 嗡嗡声 “、” 原声吉他 “” 指弹吉他 “等。也可以通过” 柏林 90 年代的房子 “、” 加勒比海的海滩 “、”19 世纪 “等描述场景和时代等要素的词汇来调整音乐的风格。
据谷歌研究院介绍,MusicLM 在音频质量和对文本描述的理解方面都优于以前的音频生成 AI 系统,包括谷歌前几个月推出的 AudioLM。为了支持对 MusicLM 的质量评估,谷歌还发布了 MusicCaps 音乐数据集,这是一个由 5.5k 音乐 - 文本对组成的数据集,包含 5,521 个音乐示例,每个示例都标有由音乐家编写的描述文本。
不过 MusicLM 目前并没有对外公开的计划。根据谷歌方面的解释,首先是虽然大多数 MusicLM 生成的音乐还算自然,但很多时候也会生成一些” 对人类文明似乎为时尚早 “的诡异作品;其次就是 MusicLM 约有 1% 的旋律会直接抄袭训练的音乐数据,凭这一点就不敢公开了。毕竟关于 AI 艺术作品的版权问题正闹得沸沸扬扬,相信 GitHub Copilot 被起诉、 Stable Diffusion 因版权问题被起诉也给谷歌带来了不小的震撼。
领取专属 10元无门槛券
私享最新 技术干货