视觉和音频场景的内容是多维的,因此视频流可以与各种音频流配对,反之亦然。因此,在视频到音频生成任务中,引入控制生成音频的引导方法至关重要。虽然视频到音频生成是一个已经确立的生成任务,但现有方法缺乏这种可控性。在本工作中,作者提出了VATT,这是一个多模态生成框架,输入一个视频和一个可选的文本 Prompt ,生成音频和可选的音频文本描述(字幕)。 这样一个框架有两个独特的优点: i)视频到音频生成功能可以通过补充视觉信息的上下文进行精炼和控制; ii)模型可以通过生成音频字幕来建议为视频生成什么音频。 VATT包括两个关键模块:VATT Converter,这是一个针对指令进行微调的LLM,包括一个投影层,将视频特征映射到LLM向量空间,以及 VATT Audio ,这是一个双向 Transformer ,使用迭代并行解码从视觉帧和可选文本 Prompt 生成音频 Token 。 音频 Token 和文本 Prompt 由一个预训练的神经解码器将它们转换为波形。作者的实验表明,当与现有视频到音频生成方法(如VGGSound音频视觉数据集)在客观指标(如VGGSound音频视觉数据集)上进行比较时,VATT在提供音频字幕的情况下,实现了具有竞争力的性能。 当提供音频字幕作为 Prompt 时,VATT实现了更加精细的性能(最低KLD分数为1.41)。此外,让参与者选择给定无声视频的最兼容生成音频的主观研究显示,VATT Audio平均被选择为首选生成音频,而不是现有方法生成的音频。 VATT可以通过文本实现可控的视频到音频生成,并通过音频字幕为视频建议文本 Prompt ,解锁新的应用,如文本引导的视频到音频生成和视频到音频字幕。
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此,作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。
随着生成AI技术的不断进步,将上述要素融入生成平台被视为未来理想的能力。特别是,理想视频到音频生成模型的目标应该是生成能无缝匹配视频时间且完全捕捉语义的声音。此外,理想情况下,作者希望控制这种生成过程以生成符合用户偏好的主题和声音。最近最先进的方法采用了两种生成模型技术:自回归 Token 建模和扩散建模。这些方法实现了端到端的视频到音频生成,适用于各种视频和音频类别。然而,尽管这些方法能够捕捉视频中声音源的一般语义,但它们往往忽视了语境的细微差别。例如,在描绘两只猫在领地争端的视频中,模型可能产生一种平静、友好的喵喵声,这与场景的紧张性质相矛盾。这种差异主要源于视觉编码器的限制,由于无法在不同的语境中区分由相同声音源发出的各种声音属性,对整个场景的理解不完整。其次,这些方法缺乏可控制性,因为生成仅依赖于视觉帧,而没有考虑语境和声音的解释。虽然文本到音频模型可以明确控制声音的上下文,但这类模型仅基于文本,没有结合视觉的丰富和动态上下文,这可能显著影响视频和音频的对齐。实际上,仅基于文本的生成结果往往导致音频与视觉不匹配(例如,时间错位或语义损失)。
为了解决上述挑战,作者提出了一种新颖的框架,即视频到音频通过文本(VATT),该框架可以从视频帧和可选的文本 Prompt 中生成音频。VATT包含两个建模阶段:
作者在现有的大规模音频视觉数据集(如VGGSound[3]和Audioset-2M[4])上进行了实验,以展示所提出的框架在客观和主观指标方面的竞争力。为了方便文本训练和评估,作者创建了一个大规模的合成音频字幕语料库“V2A指令”,通过 Prompt 现有的音频语言模型LTU-13B[5]为这两个数据集生成音频描述。
作者的实验表明,与先前的视频到音频方法相比,所提出的模型及其训练方法在客观和主观指标上都取得了竞争力的性能。此外,该方法设计用于实现受文本输入和文本 Prompt 控制的生成,当提供文本 Prompt 时,作者的实验显示生成音频指标显著提高,这些指标衡量生成声音与视频的匹配程度。另外,当不提供文本 Prompt 时,作者的方法可以生成合理的音频字幕,可以用于视频的潜在描述或为特定视频进行声音分类。因此,这些能力使得VATT成为一种多功能的单一模型,可以同时执行文本引导的视频到音频生成和视频到音频字幕。总之,作者的贡献如下:
我国首次提出了一种第一流的框架,该框架通过将语言模型(LLM)集成,实现了文本指导下的视频到音频生成以及视频到音频字幕的转换。
作者创建了一个大规模的合成音频字幕数据集,以促进文本条件训练和生成。
作者的方法在与其他现有方法的比较中实现了最先进的视频到音频生成性能,并实现了文本控制生成。特别是,作者的文本引导模型在KLD得分(最低KLD分数为1.41)方面超过了现有最先进水平,优势显著,比现有方法快一个数量级。
视觉到音频生成任务自生成框架如扩散和基于 Transformer 的架构出现以来,受到了广泛关注。现有的视觉到音频生成方法可以分为两个研究分支:基于音乐类别的视觉到音乐生成和基于自然声音的视觉到自然声音生成。在视觉到音乐生成领域,早期研究通过研究人体运动的时间和语义对齐,探索了Midi或频谱图生成。近年来,基于扩散的方法被提出,可以直接从视频中生成音乐波形。在视觉到自然声音生成领域,早期工作开拓了与各种物体和材料相关联声音的生成[12]。
后续工作提出了基于SampleRNN的音频生成方法,可以从野外视频中生成多种自然声音。虽然这些方法展示了有前景的结果,但通常局限于特定的音频类别。神经解码和自回归 Transformer 架构解决了这些限制,随着它们的演变,生成模型现在可以有效地泛化到更广泛的音频或音乐,利用压缩潜在空间。与扩散技术如[25; 26]的类似进展。然而,这些方法通常缺乏详细的声音控制,其推理时间也变得耗时。作者的工作旨在通过引入文本指导框架来提高视频到音频生成的控制性和效率。尽管有许多同时进行的工作试图实现与作者的提出方法部分类似的目标[27; 28; 29],但作者的工作不同,因为它旨在在一个统一的框架内实现这些能力。
作为替代从视频中生成音频的输入,文本可以作为音频生成的引导输入。当文本作为输入时,音频生成在语义上变得更加可控。现有的方法,如Make-An-Audio [30],AudioLDM [31],AudioLDM-2 [32]等,通过采用潜在扩散技术,这种技术最初出现在[36]中,使得可以通过调整来将文本转换为音频(或音乐)。同时,方法如AudioGen [37],MusicGen [38],AudioLM [39],MusicLM [40],SoundStorm [2],VampNet [41]利用 Transformer 架构和基于 Token 的建模技术产生音频 Token ,然后使用神经解码器如Encodec [18]和SoundStream [42]将其解码为波形。值得注意的是,SoundStorm和VampNet使用了一种高效的技术,称为 Mask Token 建模,它通过解码器的并行解码速度加快了生成过程。在作者的工作中,作者采取了一种类似的策略。尽管这些模型在将文本转换为音频(或音乐)时可以提供高质量音频并具有很强的文本相关性,但它们在适应视频到音频生成时不一定与视觉动态对齐。这是可以预期的,因为这些模型没有接受视觉输入的训练。作者的工作通过将预训练的大语言模型(LLM)集成作为多模态编码器来解决这一问题,该编码器可以处理视觉和文本输入,这样生成的音频就会考虑视觉和文本信息。
多模态大型语言模型(MLLMs)已经取得了显著的进步。随着开源、预训练和指令调优的LLM(如LLama [43],Alpaca [44],Vicuna [45])的出现。特别是,将这些LLM扩展为MLLMs时,一个预训练的模态特定编码器提取特征,然后一个映射层将这些特征映射到与相应LLM的文本嵌入相同维度的向量。这种方法导致了视觉LLM [46, 47]、音频LLM [5, 48]、音频视觉LLM [49]的发展,并在诸如描述 [50] 和问答 [51, 52]等多模态理解任务中取得了改进。最近的努力也集中在诸如多模态检索 [53],多模态嵌入式导航 [54, 55],利用LLM的强大推理能力来解释或改进结果。在生成方面,一些工作 [56, 57] 试图使用LLM作为中心媒介实现任意模态之间的转换。尽管这些方法在总体上实现了模态之间的转换,但在有或没有文本指导的情况下,它们无法实现端到端的视频到音频转换,这是作者工作的独特方向。
VATT是一种灵活的视觉到音频生成框架,它可以处理视觉和文本输入,并生成音频波形和音频字幕。为了实现这一目标,VATT包含两个建模阶段:
i) 视频到字幕:这一阶段使用一个可学习的投影层将视频特征转换为与LLM兼容的嵌入。模型接收生成音频字幕的指令。
ii) 视频+文本到音频:这一阶段采用编码器-解码器架构。编码器使用视频到字幕阶段的冻住权重的细调LLM。解码器是一个双向 Transformer ,使用训练中的 Mask Token 建模技术在训练中生成音频 Token 。VATT系统的训练 Pipeline 如图2所示。在推理过程中,VATT通过迭代并行解码从视频和可选文本 Prompt 生成音频 Token 。这些 Token 然后使用[17]中的Encodec转换为音频波形。
VATT Converter旨在将视觉和文本 Prompt 集成到音频生成以及音频字幕中。核心组件是 _VATT Projector_,它是一个嵌入层,将视频特征映射到LLM的文本嵌入空间。对于从帧级视觉编码器 中提取的视觉特征,应用一个线性层将每个特征从其原始维度 投影到LLM的文本嵌入维度 ,生成一系列转换后的特征 ,其中 和 是线性投影的可学习参数。
V2A 指令调优:VATT Transformer 的关键功能是从视觉流中提取与音频相关的语义特征。借鉴多模态 LLM(如视觉-LLM [46] 和音频-LLM [5])的成功经验,作者采用多模态指令调优,将视频的视觉输入与同一视频的 GT 音频字幕对齐。给定一个 Prompt 指令 ,例如 "描述视频可能产生的音频:" 和作为输入的视觉特征 ,作者通过微调一个指令调优的 LLM,例如 Vicuna-7B [45],来模拟音频描述的条件分布 ,即 。与典型的指令调优方法不同,作者的方法将来自视觉的概念桥接到音频模态,统一了作者在第3.2节描述的文本引导视频到音频生成的任务表示。为了提高训练效率,作者在保持原始 LLM 权重不变的同时,通过集成 LoRA [58] Adapter 来微调 VATT Projector。作者最小化音频字幕 Token 的负对数似然度,该 Token 是基于视觉输入和 Prompt 指令条件化的。
在真实音频描述中的第个文本 Token ,是包括VATT项目器和LoRA Adapter 在内的可训练权重集。文本 Prompt 和音频字幕的构建的进一步详细信息在第四章和附录C中描述。
一旦音频相关的视觉特征与LLM嵌入空间中的文本特征对齐,LLM就能有效地编码多模态信息,作为文本生成和音频生成的表示。确实,在VATT的第二阶段,有两种生成音频的方式:i)在没有提供条件文本 Prompt 的情况下,将视频特征和_标准模板_ Prompt (例如,“描述视频可能推理出的音频”)作为VATT Transformer 的输入。ii)当提供音频标题作为文本 Prompt 时,将视频特征和音频标题一起输入到VATT Transformer 中。在这种情况下,提供的音频标题有助于指导视频到音频的生成过程,并取代了生成音频标题的需要。
为了生成音频,作者设计了一个基于音频 Token 的解码器VATT Audio,该解码器基于VATT Transformer 编码的特征。与现有方法不同,作者采用了一种基于遮挡 Token 的新型 Token 建模技术。这种方法最初在图像生成任务中得到推导[1],最近被应用于文本到音频生成[2, 41]。在推理过程中,通过迭代并行解码算法,该方法能够实现竞争生成质量的同时提高效率。
基于离散 Token 的音频表示 为了使用离散 Token 表示音频波形,作者采用了一个预训练的音频神经解码器Encodec [17],类似于FoleyGen [23]。Encodec是一个多级残差向量量化(RVQ)自编码器,通过波形重构和对抗目标进行训练,可以从压缩 Token 中高保真重构。具体来说,Encodec使用了L=4个 Token 库来表示音频。低级 Token 库编码粗粒度的语义信息,而高级 Token 库捕获更精细的细节。作者采用了一个开源的Encodec模型,它使用音频波形在的采样率下进行预训练。该模型在的采样率下将波形压缩为 Token ,从而得到波形样本每个 Token 。对于任意波形,作者从Encodec解码器部分提取相应的音频 Token 表示()。
Mask 音频 Token 生成模型 作者通过开发一个 Token Mask 策略来学习音频 Token 矩阵的联合分布,该策略在完全并行方式下学习音频 Token 的联合分布。这与[38]中提出的"延迟模式"不同,它可以在代码库维度上实现并行,但仅限于代码库维度。在的每个时间步,将L个 Token 的嵌入向量相加以表示相应段的音频波形。为了在 Token 矩阵的任何位置执行 Mask 操作,作者在每个 Token 库中引入了一个可学习的Token 。通过在对应代码库中随机替换中某些 Token 的条目,作者得到 Mask 音频 Token 矩阵。通过沿 Level 轴对中每个 Token 的嵌入向量求和,作者得到。
条件生成建模的实现如下。作者从VATT Transformer 中提取最后一个隐状态层(在LLM预测头之前)作为条件输入到音频 Token 解码器中。作者使用一个线性层将映射到,具有与 Mask 音频嵌入相同的功能维度。将和之间的关系的建模方法之一是使用Vanilla Transformer架构中提出的交错自注意力和交叉注意力块[59]。然而,作者发现这种交错交互的音频和多模态输入条件之间的互动并不能捕捉它们之间的细粒度对应关系。因此,作者提出使用双向自注意力架构来融合特征。
具体而言,作者在时间轴上把和拼接起来,得到融合特征。解码器由个自注意力块组成,如图3所示。解码器最后层的隐藏状态表示融合音频和条件特征。作者只提取隐藏状态对应音频 Token 的部分,即,并将其并行地经过个线性层进行分类,在代码表的每个 Level 上对 Mask Token 进行分类。对于矩阵中的每个 Mask 音频 Token ,作者计算预测 Token 和真实 Token 之间的交叉熵损失,公式如下:
$$\mathcal{L}_{VATT}=-\sum_{a_{tok}\in A_{tok}^{M}}\mathbb{I}\left(a_{tok}=\text{}\right)log\left[P_{\phi}(\mathbf{\hat{a}_{tok}}=a_{tok}^{gt}|A_{tok}^ {M};H_{lm}))\right], \tag{2} $$
其中, 是音频 Token 解码器中的可训练参数集, 是指示函数。
Mask 分布设计 参考文献[1;2],作者在音频 Token 解码器中引入了可变随机 Mask 。特别地, Mask 比例在音频 Token 解码器中生成有意义信号中起着重要作用。在[1;2]中,默认使用弧余弦 Mask 分布,而在这里,作者研究了几种包括分布和不同超参数的 Mask 策略,以找到达到更优生成质量的策略(请参阅附录A以获取更多详细信息)。作者的研究显示,0.75为均值,0.25为标准差,截断在0.5到1.0之间的正态分布是这种最优策略。这种策略的一般解释是,相对较高的范围 Mask 比例使模型能够在 Token 矩阵中的大部分条目被 Mask 时生成更好的初始 Token 。这对生成有意义 Token 的未来解码步骤至关重要。
迭代并行解码的 Mask 调度也起着关键作用。在推理过程中,作者遵循[1]中提出的余弦调度方案,逐步解决音频 Token 。迭代取样过程从音频 Token 矩阵中的所有开始。在第t步,模型将前一步的音频 Token 矩阵与条件作为输入,并并行地采样一个新的音频 Token 矩阵,其中所有 Token 均未被 Mask 。基于中每个元素的信心,只保留前k信心的 Token ,其余元素用重新填充,从而得到。余弦调度方案决定了重新 Mask Token 的比例。值得注意的是,为了解决矩阵中每个元素的信心,作者采用_"gumbel-top-技巧"_[60],其中温度会变化,即,其中,表示在元素处被采样的 Token 的输出概率。这相当于从无替换的多项分布中采样k值。温度控制了随机性的程度。作者使用,在生成过程中线性衰减,其中是初始温度。与[1; 2]类似,作者的方法在几步解码(通常为10 - 20步)内实现了最优质量和快速速度。
数据集: 作者使用常见的基准数据集VGGSound [3] 和 AudioSet-2M [4] 进行训练和评估。VGGSound 是一个来自 YouTube 的大规模音频视觉数据集,包含 309 个音频视觉类别中的 192k 个视频,其中 train-test 视频划分比例为 177k / 15k。AudioSet-2M 是一个更大的音频视觉数据库,包含大约 2M 个 YouTube 视频,其中只有 1.6M 个在线。在第一阶段,作者使用两个数据集训练 VATT Converter,并在 VGGSound 上进行测试。在第二阶段,为了与现有的视频到音频生成方法进行公平比较,作者仅在 VGGSound 数据集上进行训练和评估。
作者使用现有的音频语言模型LTU-13B,通过输入音频波形和指令"
指令:封闭式问题:为声音写一个音频描述。回答:"来合成大规模的音频字幕数据集“V2A指令”。对于AudioSet和VGGSound,作者为每个视频生成一个单独的音频字幕,总共1.77M个视频。
为了确保字幕的质量,作者在将LTU生成的字幕用作合成 GT 值(GT)之前,首先手动验证了它们的有效性。然后,作者进行了一项实验,以进一步评估字幕的质量。特别是,作者从VGGSound测试集的100个视频中,按照视频类别进行分层抽样,进行了人研究。作者使用1-5点MOS(Mean-Opinion-Score)量表(越高越好)来衡量字幕的正确性。作者将视频和相应的字幕对评估者提供,并询问:“提供的字幕如何准确地反映了视频中的声音事件?1.不准确且无关。2.相关但不准确且错误很多。3.部分准确但遗漏细节且存在错误。4.大部分准确且存在一些小错误。5.准确且完整。”作者在MTurk平台上进行评估,并收集了总共300个响应。生成的字幕具有较高的平均MOS 4.72和标准差0.37,为合成 GT 值的效性提供了额外的指示。
实现细节: 对于视觉输入,作者使用 eva-CLIP [61] 图像编码器在 5fps 的速率下从视频帧中提取均值池化的视觉特征,这导致了一个 50×768 的视觉序列对于一个 10 秒的视频。为了表示音频,作者从预训练的 Encodec-16kHz 中提取音频 Token 。对于每个 10 秒的音频波形,作者用 个 Token 矩阵来表示。
对于LLM,作者探索了两个开源模型,Gemma-2B [62]和LLama-2-7B [43],使用指令调优的预训练权重。Gemma-2B的LLM隐藏大小为2048和4096,而LLama-7B的隐藏大小为2048。对于这两种LLM,作者在保持LLM权重冻结的同时,使用LoRA参数高效的微调技术训练VATT Converter,同时使用秩r=16和α=32,以及0.1的dropout率进行LoRA配置。
VATT音频是一个双向Transformer,具有24层,每层隐藏大小为1024,共有16个注意力头。为了区分条件输入和音频 Token ,作者在相应的输入上添加了两个可学习的模态特定嵌入(有关更详细的实现细节请参见附录D)。
评估指标:为了评估视频到音频生成的质量,作者遵循[23]中的方法,使用Kullback-Leibler-Divergence (KLD)与PassT [63],Frechet Audio Distance (FAD) [64]和Align Accuracy (Align Acc) [25]这些指标。KLD通过对比生成音频和真实音频来衡量生成音频与真实音频的接近程度,反映了生成音频捕捉视频概念的性能。FAD评估了音频的整体分布,表示音频的整体质量。Align Acc评估了音频和视频的相关性和时间对齐。此外,作者还将生成速度(每个波形样本所花费的时间)纳入效率的衡量标准。作者还计算了CLAP分数[65],以评估生成音频与文本 Prompt 的符合程度,并与文本到音频生成进行比较。这些指标的详细信息请参见附录F。
对于视频到音频字幕的翻译,作者使用两种类型的指标,自然语言生成(NLG)指标和音频文本相关性指标。NLG指标通过基于规则的匹配,以精确度和召回率评估生成的字幕与真实音频字幕的匹配程度。这些指标包括BertScore [66],BLEU-4 [67],ROUGE-L [68]和CIDEr [69]。为了评估生成的音频字幕与实际音频的相关性,作者计算CLAP-score [65],该指标为音频和文本嵌入之间的余弦相似度。
量化评估音频生成:作者在VGGSound测试集的分裂上评估VATT模型在音频生成方面的性能。对于15,446个视频样本,作者生成每个10秒的音频波形。作者将VATT变体与其他现有的视频到音频生成方法以及包括AudioLDM-2[32]和AudioGen[37]在内的文本到音频生成方法进行比较,这些方法包括使用不同的文本 Prompt 。
上述指标的结果总结在表1和表2中。在各项指标中,VATT模型在与其他方法相比具有最佳KLD分数和Align Acc,同时保持竞争力的FAD(前两名)。值得注意的是,当受到GT音频字幕(VATT-LLama-T和VATT-Gemma-T;底部)的指导时,作者的模型生成的声音与GT音频更准确地匹配,这体现在最低KLD分数为1.41和1.66的具有两个LLM背心的VATT模型上,超越了视频到音频和文本到音频方法。与文本到音频方法相比,VATT模型在CLAP得分方面实现了竞争力的音频文本对齐,表明其强大的遵循文本 Prompt 的能力。这些 Baseline 的实现细节包括在附录E中。
量化评估视频到音频字幕生成:作者通过 Prompt VATT Converter生成音频字幕来评估视频到音频字幕生成。作者使用 Prompt “描述这个视频可能的音频:“来为所有VGGSound测试视频生成字幕。对于基准,作者在两种零样本模式下 Prompt LLAVA-13B-v1.5模型分别生成视觉和音频描述。由于LLAVA只能接受单张图像作为输入,所以作者选择视频的中帧。作者使用“为以下图像提供一个简洁、描述性的字幕。“作为视觉 Prompt ,将“描述这个场景可能产生的声音的简短句子,无需推理“作为音频 Prompt 。作者还与视频LLM基准Video-LLAMA-7B进行了比较,以实现零样本视频到音频字幕生成。具体而言,作者将VGGSound视频直接输入到Video-LLAMA模型的VL分支,并 Prompt 它使用指令“用户/视频中的哪些声音可能匹配?“来生成音频字幕。由于Video-LLAMA没有在VGGSound数据集上预训练,也没有使用LTU生成的字幕,作者实现了一个与Video-LLAMA相似的模型结构,并在作者的LTU-生成字幕数据上进行训练。作者将Video-LLAMA中使用的原始BLIP-2视觉特征替换为作者eva02-CLIP-L视觉特征,因为VGGSound和AudioSet中的所有BLIP-2特征的视频预处理时间昂贵。对于Video-LLAMA的Video-QFormer组件,作者保持不变,并将其命名为VATT-Qformer - LLama。作者的评估结果总结在表3中。具有LLM的VATT模型优于LLAVA Prompt 和Video-LLAMA零样本结果,表明从视频中语义推理声音的能力更强。特别是,与LLAVA视觉字幕 Baseline 相比,作者的LLama模型在音频文本相关性测量方面提高了+5.0%的准确性。参考LTU [5]生成的真实音频字幕的平均CLAP得分为0.379。
定性评价:除了定量评估外,作者还进行了一项定性(主观)研究,以评估VATT的音频生成感知质量。具体而言,作者从VGGSound测试集的分类视频中使用分层抽样随机选择100个视频。对于 Baseline 中的每个方法,作者将生成的样本与VATT进行配对。生成的两个方面被评估,分别是保真度和相关性。保真度仅关注音频质量,而相关性评估音频与视频的语义相关性和时间对齐。
配对,评审者被要求在1(强烈倾向于 Baseline )到5(强烈倾向于VATT)的利克特量表上对VATT与比较 Baseline 的评分进行评价。作者使用作者最好的VATT变体VATT-LLama-T(带有GT文本指导)进行比较。如表4所示,VATT在相关性方面超过了其他方法。在忠实度方面,VATT在与大多数 Baseline 进行比较时一直受到偏好,而在与V2A-Mapper进行比较时稍微较少受到偏好。原因可能在于V2A-Mapper直接针对AudioLDM,这是一种大规模预训练的文本到音频模型,这类模型在忠实度方面通常比基于 Token 的方法表现更好。关于定性评估的更多细节已包含在附录G中,并在附录B中提供了定性样本。
消融实验: 作者通过移除LLM并直接将视觉特征输入到解码器中来研究VATT Transformer 的有效性。作者称之为VATT-V模型。尽管VATT-V无法处理文本输入或生成文本,但它仍然可以作为VATT的强有力变体,用于视频到音频生成。
为了研究音频 Token 解码器的贡献,作者将VATT的解码器部分替换为传统 Transformer [19]中提出的交错注意力块,并将其称为VATT-Cross-Attn。如表4所示,VATT-Gamma模型在所有变体中表现最好。当VATT仅根据视觉输入时,其性能最低。VATT Transformer 通过音频相关的文本增强视觉特征,从而提高生成的音频的相关性和质量。此外,作者发现VATT音频中的双向 Transformer 设计对于学习音频与条件输入之间的关联至关重要,以提高音频生成性能。有关附加消融研究的详细内容请参见附录A。
在本工作中,作者提出了一种多模态生成框架,该框架既支持文本引导的视频到音频生成,也支持视频到音频字幕的生成。
实验表明,作者的方法可以在无条件和条件模式下,通过文本生成高质量音频,同时也可以从视频中生成合理的音频字幕。
当前音频 LLM 生成的文本的多样性有待提高。在用户提供的文本 Prompt 风格明显不同的情况下,存在音频质量和遵循指示之间的冲突可能性。
未来的工作可以增强模型在不同文本风格下的泛化能力,并进一步开发具有信息性的迭代式对话式视频到音频生成的能力。
[0]. Tell What You Hear From What You See .