据 IT 之家 12 月 4 日报道,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。据悉,这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,Audiobox 能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。
Meta 介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。
Meta 测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如“流水声伴随鸟鸣”、“以高音调快节奏说话的年轻女性”等;同时测试了同时输入人声及文字提示,以生成带有情绪(“哀痛而缓慢”)并拥有背景音(身处教堂)的语音。
领取专属 10元无门槛券
私享最新 技术干货