文本驱动的生成模型在图像和视频领域已经取得了显著成果,例如大火的 Stable Diffusion,可以生成大片级别的图像,但是在音频领域,技术上的进展还是比较局限的。
文本到音频的生成模型对许多和创作相关的行业都会产生积极的作用,例如游戏开发者或者电影配音人员可以借助此项技术,根据特定的要求去生成声音,而不是在庞大的音频数据库中搜寻,从而加快生产效率。文本到音频的生成模型也可以为未来自动内容创作提供文本和声音之间的桥梁。
然而,以往文本到音频的研究都存在生成质量有限、计算成本高的问题。
针对上述困难,来自英国萨里大学等机构的研究者提出了 AudioLDM,一个基于去噪扩散隐式模型(Latent Diffusion Models, LDMs)和对比学习 (Contrastive Learning) 的框架。AudioLDM 可以在仅有音频数据的情况下达到比使用音频 - 文本数据对相同或者更好的效果。
作者提出采用自监督的方法去训练 LDMs。具体而言,AudioLDM 使用对比学习将文本和音频两个模态对齐到一个隐空间中,在训练 LDMs 的时候使用音频自身的表征去生成音频本身,并在测试时使用文本的表征。这种做法比较好的缓解了此任务对音频 - 文本数据对的依赖。
总结来说,AudioLDM 具备以下几点优势:
达到了目前最好的文本生成音频的效果,并且在核心模块(扩散模型)优化阶段不需要文本数据。
计算资源消耗低,单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。
模型在不需要额外训练的情况下,可以对任意声音进行音色风格转换,声音空白填充和音频超分。
机器之心最新一期线上分享邀请到了该研究的作者之一、英国萨里大学刘濠赫博士,为大家解读他们近期的工作 AudioLDM。
分享主题:AudioLDM: 文本驱动的音效、音乐和语音生成
嘉宾简介:刘濠赫目前博士就读于英国萨里大学,师从 Mark D. Plumbley 教授。其开源项目在 GitHub 上收获了 1.5k star。在各大学术会议上发表多篇论文,并在多项世界机器声学大赛中获得前三的名次。在企业界与微软,字节跳动,英国广播公司等有广泛的合作。
分享摘要:此次分享将介绍
文本生成音频的研究背景和应用场景
AudioLDM 的设计思想,模型结构和实现细节
对 AudioLDM 的效果评估,以及与其他基线模型的比较
对 AudioLDM 生成效果的展示,包括视频和网页
对未来工作的展望
领取专属 10元无门槛券
私享最新 技术干货