得益于大型语言模型(LLMs)的兴起,大规模视觉语言模型(LVLMs)已成为一个重要的发展趋势,它成功地弥合了图像和文本之间的鸿沟。然而,视频使得LVLMs难以有效地发挥作用,因为语言和空间-时间数据结构之间的关系非常复杂。 最近,大规模视频语言模型(LVidLMs)将静态视觉数据(如图像)的特征映射到语言特征的潜在空间,通过通用的多模态任务充分利用了LLMs的能力。在本论文中,作者探索了一种同时考虑空间和时间维度的精细对齐方法,即通过物体轨迹进行不同模态的对齐。 因此,作者提出了一种新颖的LVidLM,名叫PiTe,它展示了良好的可应用模型特性。 为了实现细粒度的视频-语言对齐,作者编辑了一个多模态预训练数据集PiTe-143k,该数据集为所有个体物体提供了像素 Level 的运动轨迹信息,这些物体出现在视频中并在标题中提及,这是通过作者的自动标注 Pipeline 实现的。 同时,PiTe在众多视频相关多模态任务上展示了令人瞩目的能力,通过大幅超越最先进的方法。
大型语言模型(LLMs)在AI领域迅速获得了 popularity ,展示了惊人的在各种自然语言任务上的能力。LLMs 强大的语言理解能力促使研究行人探索其在解决更广泛跨领域的任务中的实用性。因此,越来越多的研究专注于开发全面的 Large Visual-Language Models(LVLMs)以解决零样本设置下的视觉相关任务,特别是在视频理解方面。通用 Large Video-Language Models(LVidLMs)的追求将面临长期挑战。在此过程中,实现 LLMs 中固有的杰出理解、推理和生成能力的有效利用至关重要。
解决这一问题的一个潜在途径是将视觉特征与语言特征的潜在空间对齐。为此,现有的 LVidLMs 应用大规模的常规提示调优 [46, 48, 19, 26, 19]。然而,传统的问答训练范式主要是帮助 LLMs 从空间角度理解视觉数据,在捕捉时间动态和空间一致关系方面存在挑战。因此,仅依赖提示调优不能实现全面视频理解,因为这涉及到复杂的空间-temporal 数据结构。需要对空间和时间维度进行对齐。提供更细粒度的跨模态对齐指导将显著增强 LVidLMs 理解视频的能力。
为此,作者提出了一种名为 PiTe 的新颖 LVidLM,它使用轨迹在像素 Level 精细对齐视频和语言特征,同时考虑空间和时间维度,如图0(a) 所示。通过要求模型预测图像中提及的单个物体的轨迹,它可以通过挖掘视频上下文在时间维度上的影响,并增强基于证据的像素级文本到像素的细粒度对齐的学习。
由于没有现成的带有物体运动轨迹的视频-语言数据集,作者通过自动化标注 Pipeline 整理了一个大规模的视频-语言数据集 PiTe-143k。如图0(b) 所示,所提出的 PiTe 显著提高了 LVidLM 理解视频的能力,使其在零样本条件下的问答、时间定位和密集描述生成任务中表现出色。
总的来说,本文的主要贡献如下:
作者通过自动化标注 Pipeline 创建了一个包含所有物体轨迹的大规模视频-语言数据集 PiTe-143k。
作者提出了一种名为 PiTe 的新颖 LVidLM,该模型使用轨迹在空间和时间维度上对齐视频和语言特征。
在众多数据集上进行了大量的实验结果和分析,展示了 PiTe 在零样本视频问答、时间定位和密集描述生成任务中的优势。
近年来,诸如GPT-1 [32],BERT [7],GPT-2 [33],和T5 [34]等先驱的的基础语言模型为自然语言处理(NLP)领域奠定了基础,而GPT-3 [4]的创纪录规模参数扩展至1750亿大小的模型参数,实现了令人瞩目的零样本学习性能。此外,关于扩展定律的研究 [14]使语言模型朝向更大规模的拓展。因此,受到InstructGPT [29]和ChatGPT [28]通过强化学习结合人类反馈的训练(RLHF)基于GPT-3所取得成功的推动,大语言模型(LLMs)在自然语言理解、逻辑推理和生成领域的影响日益扩大。GPT的成功为构建LLMs提供了有前景的途径。基于GPT-3的RLHF训练的多个开源LLM已提出,其性能相似,包括OPT [49],BLOOM [36],GLM [9],LLaMA [37、38],和Vicuna [5]。
作者的调查深入挖掘了超越语言模式限制的LLMs的惊人语言理解和零样本泛化能力。具体而言,作者着眼于将这些能力扩展到多模态场景,从而探索它们在处理不同模式信息跨多种模态的潜力。
LLM的激增已经引领了自然语言处理任务的重大进步,同时也引发了开发大型视觉语言模型(LVLMs)的兴趣。为了构建一个将视觉信息与视觉语言任务统一处理的统一的LLM,仍然是LVLMs最迫切的需求之一。Flamingo [1] 和 OpenFlamingo [3] 通过交叉注意力机制将视觉信息融合到中间嵌入,从而将冻结的LLM进行训练,并与数十亿图像文本对齐,以连接视觉和语言模式。类似地,BLIP-2 [18] 引入了 Q-Former 的概念,以更有效地将视觉特征与语言空间对齐。此外,MiniGPT-4 [52] 通过只用一个投影层进一步微调更详细的图像描述,大幅提高了可用性,并与冻结的视觉编码器与冻结的LLM对齐,以及LLAva系列的简单使用多层感知(MLP)替代 Q-Former 以及两阶段的指令调优来增强这个过程。最后,PixelLLM [42] 通过在图像描述中的每个单词的位置坐标作为不同模态之间的联系,强调模型在目标检测任务中的性能,以增强视觉数据的表现。作者的主要关注点是将LLM的出色语言理解能力转移到分析视频中动态、连续的视觉数据,而不是静态视觉数据,如图像。
最近,为了将LVLMs的任务处理能力转移到视频模式中,已经做出了许多努力,导致了大型视频语言模型(LVidLMs)的出现,如VideoChat [19],Video-LLaMA [46],和Video-ChatGPT [26]。以前的研究已经证明了LLMs在视频内容上能够执行各种任务,通过一个两阶段的训练过程,受到用户指示的引导。这些研究是将静态视觉特征与LLMs配对,然后在由GPT或人类标注的数据集上进行指令调优。尽管在视频理解方面有效,但这些模型缺乏细粒度的时空建模,这使得它们无法详细理解或定位物体在特定的细节或特定时段。作者提出了一种在像素级跨空间和时间维度进行新颖的细粒度对齐策略,以增强LLMs全面分析视频内容的能力,从而帮助更好地理解呈现的视觉信息。
为促进像素 Level 的细粒度多模态对齐研究,作者提出了一个大规模的视频-语言数据集 PiTe-143k。该数据集填补了现有资源中的一个重要空白,提供了具有视频指令的广泛物体运动轨迹,此前在现成的数据集中尚不可得。PiTe-143k基于InternVid-10M-FLT [13, 40]构建,其中每个实例都包含整个视频及其多个片段描述,带有开始停止时间戳。如表1所示,PiTe-143k包括343,930个事件片段和1,020万个物体的运动轨迹,这些物体在视觉和文本模态中都出现了。为了便于达成这一目标,作者为PiTe-143k建立了自动标注 Pipeline ,推动了LVidLMs在像素级视频理解方面的进步。
PiTe-143k的自动标注 Pipeline 包括两个主要阶段,如图2所示:(1)第一阶段涉及名词短语提取和指代表达式分割,从而在事件描述中的所有个人目标生成帧内的目标 Mask ;(2)第二阶段侧重于点跟踪,以捕获第一阶段中获得的 Mask 对应的移动轨迹。
第一阶段的目标是构建视频与语言之间的密切、细粒度联系。为此,作者从字幕中提取所有的名词短语,并在视频中找到相应的目标。
在开始阶段,作者使用构词法解析 SuPar [50, 51] 对语言进行提取名词短语,如图3所示。值得注意的是,为了在下一步中通过最简单、最直接的语言指令,作者只从最低层提取名词短语。例如,在图2(a)中,作者考虑了两个名词短语_a pen_和_a white table_,但由于前者词组的组合复杂度,作者不考虑其父节点表示的_a pen on a white table_。接下来,作者利用 GLaMM [35],第一个可以无缝生成与相应目标分割 Mask 相交的自然语言回复的 LVLM,来获取视频第一帧中基于文本的引用表达的对应分割 Mask 。在这样具有挑战性的情况下,作者忽略名词短语的轨迹信息。尽管存在这种局限性,但是在大规模预训练数据的帮助下,其对整体性能的影响可以忽略不计。同时,利用 LLMs 出色的语言理解能力,GLaMM 能够有效地过滤掉无效的引用表达,如图2(b)所示的不合法目标引用 front 。
在第二阶段,作者的目标是将前一个阶段构建的连接转移到视频中,从而扩展视频与图像相比具有的特殊时间维度。为此,作者跟踪每个剪辑中的所有单个目标,以获取其轨迹,轨迹表示视频与语言在空间和时间维度之间的连接。
图2:PiTe-143k的自动标注流程。图中的视频样本展现了视频开始和结束的两个事件。通过SuPar [50, 51]提取名词短语的过程如图3所示。
第二阶段始于作者使用DOT [17],这是一个简单且有效的方法跟踪点以恢复任何场景中任何点的轨迹,每个剪辑捕捉任何点的第一帧的轨迹。根据作者的观察,每段剪辑的标题主要描述简短的视频内容,因此大多数标题对应于唯一的场景剪辑,这使得作者可以跟踪第一帧中识别出的物体。随后,根据第一阶段获得的物体分割 Mask 过滤轨迹。到目前为止,作者已经得到了每个剪辑中每个视频中所有物体的轨迹,通过轨迹从空间和时间维度创建视频与语言之间的连接,视频中的轨迹表示物体的存在,轨迹的值表示物体在视频中的位置。最后,作者使用k-means++ [2]聚类算法将轨迹压缩为三个关键点,有效地降低了计算需求。这种方法基于三个点可以充分捕获物体的典型几何形状,在精度和计算效率之间实现平衡。此外,作者在各种关键跟踪点上进行了性能比较分析,如第5.3节所述。
在本节中,作者提出了一种新颖的大视频-语言模型(LVidLM) PiTe,该模型通过在空间和时间维度上的运动轨迹将视频与语言对齐。图4 说明了 PiTe 的概述。
PiTe是由以下几个部分组成:一个基于Vision Transformer (ViT)的图像编码器来编码视频帧,一个将视觉特征映射到LLM语义空间的视觉 Adapter (实现为一个线性投影层),LLM Vicuna v1.5,以及在单独的训练阶段使用一个定位投影器或轨迹投影器来引导LLM理解视觉信息的线性投影。
图4: PiTe框架视频语言对齐的示意图。
对于 PiTe 模型训练,作者考虑一种三阶段的指令调优流程:
(1)第一阶段围绕使用图像-标题对训练改编;
(2)第二阶段专注于通过轨迹对视频和语言特征对齐;
(3)第三阶段专注于通过高质量对话指令调优,以增强模型对人类指令的理解。
这里 表示矩阵在维度一维的连接。
不仅局限于轨迹,作者的模型可以识别生成文本中的时间边界。具体来说,作者将生成文本构建为 ...,从 s 到 e 或从 s 到 e,... 以帮助模型在时间维度上学习。其中 ... 包含事件描述,s 和 e 分别对应事件的开始和结束时间戳对应的帧索引。这种方法进一步增强了模型对时间边界的理解 [13]。
与初始训练阶段不同,不是所有生成的单词都与轨迹关联。在物体缺乏轨迹或随时间消失时,作者统一为其分配地面的真实坐标 ,以表示其不存在。
第三阶段:视频问答。 在第二阶段之后,作者将高质量的对话数据 Valley [25] 和 Video-ChatGPT [26] 结合一个循环用于指令调优,使得模型能够遵循人类指令以实现视频理解的更准确和泛化能力。
第三阶段的训练目标是通过标准标签平滑交叉熵损失计算得到(用于自回归生成):
如同阶段2,作者将阶段1和阶段2训练的LoRA与原始模型合并,并引入一个新的LoRA模块。
实验部分第一章的开端。
任务,数据集和评估指标。作者在三个任务上对LVidLMs的视频理解能力进行了定量评估:
(1) 视频问答:这一任务评估了LVidLMs在了解视频内容基础上回答各种问题的全面视频理解能力。作者在三个数据集上执行此任务,分别是:MSVD-QA [41],MSRVTT-QA [43],和ActivityNet-QA [45]。视频理解的评估流程遵循Video-ChatGPT [26],并使用GPT-Assistant [28]评估准确率和评分。
(2) 视频时间定位:这一任务评估了LVidLMs分辨出描述视频剪辑对应的片段的起始和结束时间戳的能力。此任务要求模型有效地把握视频的时序方面。作者在ActivityNet Captions数据集[15]上进行此任务,并计算模型生成的时间段与真实时间段的交并集(IoU)。
作者报告平均IoU(mIoU)和@1召回率(Recall@1)、IoU(R@m)指标,其中m值设定为{0.3,0.5,0.7}。(3) 视频密集型字幕生成:这一任务要求模型在理解视频的空间和时间维度的同时,生成所有视频中描绘的事件及其相应的开始和结束时间戳。
作者将在ActivityNet Captions数据集[15]上进行此任务,首先报告SODA_c[10],然后根据生成的的事件与真实匹配对在0.3、0.5、0.7、0.9不同IoU阈值下的CIDEr [39]和METEOR [16]的平均值进行分析。在本篇论文中,所有实验都是在零样本设置下进行的,所有评估指标的较高值表示优越的性能。
在本文中,作者采用Vicuna v1.5 [5]作为语言模型,在两个尺度上训练PiTe模型:7B和13B。得益于LoRA [12]的效率,用单个Nvidia 8-A100(80GB VRAM)节点大约10小时即可完成7B模型的训练,而13B模型则需要约17小时。表2中展示了更多的超参数设置。
表3和4分别展示了PiTe模型在众多视频理解数据集上与最新状态的 Baseline 对比性能。
如表3所示, PiTe 在所有数据集的所有指标上,始终优于最新的纯指令调优 Baseline ,表现出显著的提升。与每个数据集的顶级 Baseline 相比, PiTe 在平均问答准确性方面取得了显著的提升,最大增幅达到 4.8,平均增幅达 3.7。例如, PiTe 与 Video-ChatGPT [26] 在 MSVD-QA 数据集 [41] 上的准确率有很大的提升,从 64.9 提升到 68.4。这些结果表明了 PiTe 在视频理解方面的熟练程度,以及根据给出的指令提供上下文相关回答的能力。
如图4所示, PiTe 在视频时间定位任务中的所有指标上都达到了 state-of-the-art 的性能,与 Video-ChatGPT [26] 相比,其 mIoU 提高了 18.9 到 22.0。这明确表明,轨迹对齐对 LVidLMs 在时间维捕捉事件的能力有显著提升。在轨迹矩阵的时间维中引入物体轨迹,为模型提供了对时间事件边界的精确理解,从而为准确的事件定位奠定了坚实的基础。
表4中列出的密集描述任务的结果显示,与所有最先进 Baseline 相比,PiTe始终取得了明显的性能提升。值得注意的是,与[26]中的Video-ChatGPT相比,CIDEr指标([39])提高了15.9。这强调了通过轨迹在空间和时间维度进行细粒度对齐的重要性,这意味着PiTe具备更广义和详细的表示,从而提供更复杂的事件描述和准确的事件时间边界。
分析部分的开始。
如图5所示,作者在以下设置中对MVSD-QA [41]进行消融实验以验证提出的贡献对问题回答任务的个体影响,并对ActivityNet Captions [15]进行消融实验以验证在时间定位中的局部对齐策略的效果:
(1)w/o initialize:作者移除了使用局部定位投影器权重来初始化轨迹投影器的初始化策略;
(2)w/o trajectory:作者弃用了通过轨迹实现的微细对齐策略。
通过表5的实验结果,作者可以观察到以下几点:
(1)消除了PiTe中的轨迹投影器初始化策略,会降低模型的推理能力和时间边界意识。然而,在密集标题生成任务中的性能保持一致。这一观察表明,在轨迹引导训练下,模型在理解视觉内容方面依然具有基本能力。
(2)去掉轨迹引导训练几乎消除了PiTe的所有能力,包括在密集标题生成任务中的性能。
(3)在时间定位中没有轨迹引导训练的情况下,PiTe的表现优于轨迹引导训练中没有初始化轨迹投影器权重的局部对齐策略。这种结果突显了在没有初始化轨迹投影器权重的预训练局部定位投影器的轨迹引导训练中的困难,因为参数的不稳定性会阻止模型准确感知视觉时间信息。
为了更好地展示PiTe的视频对话性能,作者提供一个定性示例,如图5a所示。图上上半部分所示的示例说明了PiTe不仅能对指令 Query 提供精确的响应,而且还能通过提供更详细、准确的视频信息来增强输出。图下部分所示的示例突显了模型在理解指令和捕捉事件方面的熟练程度,从而使得在视频的100帧采样限制下,能够精确划分视频中的时间边界。
在图4(b)中,作者在集合{1,3,5}中调整跟踪点数量P。密集描述性任务的效率倾向于随着跟踪点数量的增加而提高。然而,作者观察到时间定位任务在初始阶段取得了显著的改进,然后迅速下降。跟踪点数量较少时,无法准确捕捉目标的形状,从而阻碍了模型在像素级跨模态对齐指导方面的性能。相反,更多数量的点可以提高模型对纯视觉信息的理解;然而,这也引入了噪声,使得训练更具挑战性。总体而言,可能不同任务的最佳P值不同,作者设定P=3,因为它在多个任务上都能够保持性能的稳定。
在本文中,专注于通过整合不同模态之间的基于轨迹的对齐来增强大型视频-语言模型(LVidLMs)的性能。为了在空间和时间维度上实现视频和语言之间的细粒度对齐,首先使用一个完全自动化的注释流水线创建了一个综合的多模态对象跟踪数据集PiTe-143k。
这个数据集旨在解决缺乏包含多对象移动轨迹的大规模视频-语言数据集的问题。
随后,介绍了一种新颖的Pixel-Temporal(PiTe)对齐策略,该策略利用轨迹引导的预训练来解决LVidLMs固有的挑战。
通过比较分析,在零样本设置下评估了PiTe与最先进模型和有竞争力的基线模型在各种任务上的表现,包括问答、时间定位和密集字幕,展示了PiTe在更复杂的事件描述和准确的事件时间边界方面的优越性能。
[1].PiTe: Pixel-Temporal Alignment for.