随着虚拟 Agent 在人机交互中越来越普及,实时生成真实且符合上下文的姿势仍然面临巨大挑战。尽管神经渲染技术在静态脚本方面取得了巨大进步,但其在人机交互中的应用仍然有限。 为了解决这个问题,作者提出了大身体语言模型(LBLMs)并提出了LBLM-AVA,这是一种新颖的LBLM架构,它结合了一个Transformer-XL大型语言模型和一个并行扩散模型,从多模态输入(文本、音频和视频)中生成人类般的姿势。 LBLM-AVA包括几个关键组件,以增强其姿势生成能力,例如多模态到姿势的嵌入,重新定义的注意力机制以增强序列到序列映射,用于保持姿势序列连贯性的时间平滑模块,以及用于增强真实感的基于注意力的细化模块。该模型在Allo-AVA,作者的大规模专有开源数据集中进行训练。 LBLM-AVA在生成逼真且符合上下文的姿势方面实现了最先进的表现,与现有方法相比,将弗雷歇姿势距离(FGD)降低了30%,并将弗雷歇创新距离(FID)提高了25%。
实时生成逼真且符合上下文的肢体语言对于虚拟 Agent 的吸引力至关重要,尽管神经渲染技术在生成它们方面取得了进展,但它们的逼真性通常受到静态动作和多模态交流能力有限的影响。李等(2023年);温德等(2023年)。为解决这一问题,作者引入了大型肢体语言模型(LBLMs),这是一种专门为实时、多模态通信中的肢体语言生成而设计的全新架构。
在会话AI和手势生成的背景下,作者将LBLM推理问题定义为:在给定多模态输入序列和会话上下文的情况下,生成一个最优的多模态(身体动作和面部表情)手势序列。
以下是将英文翻译成简体中文的结果:
, 其中 表示时间 处的文本, 表示音频, 表示视频, 表示由 参数化的模型。
先前的手势生成方法依赖于基于规则的系统(如Nyatsanga等人,2023年)、运动捕捉数据库(如Rueux等人,2014年)或基于学习的方法(如Yoon等人,2020年;Zhou等人,2022年)。尽管这些技术取得了显著的改进,但它们在捕捉动态会话环境中语音、面部表情和身体语言之间的复杂关系方面仍存在局限性。基于规则的系统可能显得机械化,运动捕捉数据库受到所包含特定手势的限制,而传统的基于学习的方法在生成长时间范围内保持连贯且适应不断变化的会话语境中的手势方面存在困难。
近年来,如Korzun等人(2022年); Neff等人(2007年);Bhattacharya等人(2021年)的研究可视为LBLM的早期实例,这些研究利用了Vaswani等人(2017年)基于 Transformer 模型的语言模型的成功,以捕捉人类交流的复杂性。这些模型展示了通过学习语言、音频和视觉线索之间复杂关系,生成人类类似手势的潜力。然而,它们在处理实时、多模态输入和生成多样、上下文合适的手势方面存在局限性。
作者提出了LBLM-AVA,一种新颖的LBLM架构,该架构将Transformer-XL Dai等人(2019)的语言模型与Shih等人(2023)的并行扩散模型相结合,用于从多模态输入(包括文本、音频和视频)生成人类般的动作。LBLM-AVA包含多个关键组件,以增强其动作生成能力,例如多模态到姿态嵌入、重新定义的注意力机制的序列到序列映射、用于动作序列连贯性的时间平滑模块以及用于增强真实感的基于注意力的细化模块。该模型在专有的开源数据集Allo-AVA上进行训练,Allo-AVA是一个大规模的多模态语料库,来源于如TEDx演讲和播客等不同的来源。
实验评估表明,LBLM-AVA在生成真实感和上下文适用的手势方面实现了最先进的表现。由LLBM-AVA生成的手势显著提高了虚拟 Agent 的感知自然度和参与感。作者的结果强调了LLBM在推进手势生成领域和创建更具吸引力的人机交互方面的潜力。
作者提出的LBLM-AVA模型建立在Transformer-XL架构之上,并融入了几个新颖的组件,以生成具有现实感和上下文适应性的手势。整体架构如图1所示。
模型的输入包括文本、音频和视频特征,分别表示为,和,其中和分别表示每个模态的序列长度和特征维度。这些特征通过学习线性变换被投影到共同维度:
其中 , , 和 是可学习的投影矩阵。
投影的多模态特征在序列维度上进行拼接,并通过Transformer-XL编码器进行处理。Transformer-XL架构通过重用前段隐藏状态的概念引入了递归性,使得模型能够捕捉到更长期的依赖关系。
给定输入序列 , 第 个段的隐状态 可以通过以下公式计算:
当前段落的隐藏状态来自前一段,记作,当前段的输入序列,其中表示段落长度。TransformerXL函数应用了多头自注意力机制,并伴有相对位置编码,随后是位置相关的前馈层。
为了促进不同特征(语言、音频、视频)到手势姿态的映射,作者引入了一个多模态到姿态嵌入模块。这个模块学习了一个从编码的模态特征到潜在姿态空间的转换:
在Transformer-XL编码器输入的序列的基础上,是一个可学习的权重矩阵,而是嵌入的位姿序列。
为了生成真实多样化的手势序列,作者采用了一种并行化的扩散模型Ho等人(2020年)。扩散模型通过一系列迭代优化步骤,将高斯噪声信号还原为目标数据分布。在作者的方法中,作者将扩散过程并行化,同时生成多个手势序列。
给定语言到姿态的嵌入向量 ,作者从中采样一组 个初始噪声序列 , 其中 。扩散过程随后在 个步骤中逐步优化这些序列:
其中 是一个可学习的噪声计划, 是一个由 参数化的神经网络,它预测每个步骤需要去除的噪声。最终的手势序列可以表示为 。 #### 2.1.5 Attention-based Temporal Refinement 为了提高生成的手势的时间一致性,作者引入了一个基于注意力的精炼模块。这个模块将多头自注意力应用于生成的姿态序列,使得模型能够捕捉到长程依赖关系,并确保在姿态之间实现平滑过渡。 给定生成的位姿序列{}_{i=1}^{N},精炼的序列}_{i=1}^{N}可以计算为:
在多头自注意力机制中,输入序列被附加到 Query 、 Key和Value 矩阵上,用于对输入序列进行自注意力计算。
为了进一步增强生成的手势的真实性和多样性,作者采用了对抗训练方法Goodfellow等人(2014年)。作者引入了一个判别器网络D,该网络学习区分真实和生成手势序列。然后,生成器(即扩散模型)被训练以最大化判别器的混淆:
其中 是生成的手势序列分布。判别器被训练以最小化对抗损失:
当 是真实手势序列的分布时,生成器和判别器采用交替训练方式,以促进生成真实且多样化的手势。
这些新颖组件的集成,包括Transformer-XL架构,语言到姿态嵌入,并行扩散模型,基于注意力的细化,以及对抗训练,使得LLBM-AVA能够从多模态输入中生成高度表达且符合上下文的动作。该模型架构旨在捕捉语言,音频和视频特征之间的复杂关系,同时确保生成的动作具有时间连贯性和现实感。Chen等人(2023)。
为了高效地表示和操作手势,作者引入了一种紧凑的参数化方案Zhou等人(2020)。每个手势都被表示为一个姿态向量序列,其中是姿态空间的维数。姿态向量编码了相对于根关节(如骨盆)的关键身体关节的位置和方向。
作者进一步将每个位姿向量分解为一系列对应于不同身体部位的子向量:
当为身体部位数量,且是第个身体部位在时间步的子向量时,这种层次表示允许对生成的手势进行更精细的控制,并便于模拟部件之间的依赖关系。
为了确保平滑且真实的运动,作者对生成的位姿序列应用了一系列运动学约束和后处理步骤。这些包括强制执行关节角度限制,保持骨长,并应用高斯平滑以消除高频颤动 Savitzky和Golay (1964)。
将位姿向量输入到作者的Transformer-based模型中,作者首先使用一个可学习的嵌入矩阵将它们嵌入到一个更高维的特征空间中,其中是嵌入维数:
嵌入的位姿向量 作为 Transformer 编码器的输入,使模型能够学习手势序列丰富、依赖于上下文的表示。
给定作者上面的位姿序列,作者将基于注意力的微调模块调整为在Transformer解码器输出上利用位姿嵌入。
给定解码的位姿序列,精炼模块计算一组注意力权重,这些权重衡量每个时间步与当前时间步的相关性:
其中, 和 分别表示可学习的 Query 和键向量,而 是控制注意力分布尖锐度的温度参数。
经过优化的位姿向量随后被计算为解码位姿向量的加权和,使用注意力权重:
这精炼过程有助于平滑不规则性,并确保生成的手势在时间上具有连贯性和良好的协调性。
作者在倾听者动作生成的相关工作基础上进行研究,但作者已经极大地扩展和丰富了作者的数据集,以解决前人研究的局限性,并涵盖更广泛的交流语境。尽管像Yoon等人(2017年)的TED-Gesture数据集和Nyatsanga等人(2023年)的AMT Gesture数据集做出了有价值的贡献,但它们缺乏所需的多样性和规模。例如,TED-Gesture数据集包含15场TED演讲的1,766个视频片段,总时长约为5小时。相比之下,作者的Allo-AVA数据集从各种来源收集了1,250小时的高质量视频、音频和文本数据,如脱口秀、播客、TED演讲和其他公共演讲论坛(Ruffieux等人,2014年)。这比TED-Gesture数据集大240倍,使作者模型的学习范围更广泛、更全面。
allo-AVA 数据集在多个维度上进行了仔细的平衡,以确保多样性和代表性。表1 详细地揭示了数据集的组成成分,突出了说话人的多样性以及所代表的交际语境。
除了原始视频(2)、音频和文本数据外,Allo-AVA数据集还包括一系列丰富的标注和元数据。每个视频都配有详细的动作标签、情感标签和说话者属性。动作标签基于一个精心设计的分类系统,涵盖了广泛的常见动作,如指点、标志性动作、节拍动作和隐喻动作(Tang等人,2023)。情感标签捕捉了视频中的不同时间段说话者的感知情感状态,而说话者属性则提供了关于说话者背景和专业知识的额外上下文信息。
图8展示了Allo-AVA数据集的代表性示例,展示了\begin{table}
本文研究的语料库包含了多种语言使用者的多样性、语境以及手势。
异构-AVA数据集不仅具有丰富的说话人口统计学和职业背景多样性,而且涵盖了多种交际语境。这种多样性对于训练能够泛化到不同实际场景的模型至关重要。
除了原始的视频、音频和文本数据外,Allo-AVA数据集还包括丰富的标注和元数据。每个视频都带有详细的动作标签、情感标签和说话人属性。动作标签基于一个精心设计的分类法,涵盖了广泛的常见动作,如指指点点、标志性动作、节拍动作和隐喻动作。情感标签捕获了视频中的不同时间点说话人的感知情感状态,而说话人属性则提供了关于说话人背景和专业知识的额外上下文信息。
准备全-AVA数据集的过程包括细致的数据收集、预处理和标注。原始视频数据从各种在线来源收集,以确保高质量和多样性。然后,使用OpenAI Whisper(Radford等人,2022)和其他ASRs对视频进行预处理,以提取音频和文本组件。
为了捕捉人类手势的细微差别,作者采用了一种半自动标注方法。首先,作者使用OpenPose(Cao等人,2019年)对每个视频帧进行分析,并构建一个矩阵,该矩阵表示身体关节和面部标志的空间配置。这种自动化过程为说话者的姿势和手势动态提供了一个高层次的表示。
为了提高和丰富自动标注的质量,作者手动审查并 Token 了检测到的手势、情感和说话者属性。标注后的手势数据随后与相应的音频和文本模态同步。得到的多模态数据被格式化为适合训练作者的LLBM-AVA模型的序列表示。
表2总结了Allo-AVA数据集的关键标注统计信息,突显了包含的标注的丰富性和细化程度。
为促进非语言交流特定方面的研究,Allo-AVA数据集被组织成多个子集和基准。这些子集包括专注于特定手势类型、情感表达和发言人口统计学的子集。
allo-ava 数据集代表了多模态通信建模领域的进步。通过提供大规模、多样化和丰富标注的语料库,allo-ava 使得研究行人能够开发和测试新的手势生成、情感识别和说话人属性建模方法。数据集的独特组合包括中心导向和以自我为中心的视角,以及它对真实交际语境的关注,使其成为推进作者理解人类非语言行为以及提高人工智能驱动聊天机器人自然性和表现力的宝贵资源。
作者对文本驱动的手势生成模型进行了全面的评估,将其性能与最先进的 Baseline 进行比较,这些 Baseline 在多个指标和数据集上进行评估。
作者使用几种广泛采用的指标来评估生成的手势的质量和多样性:
傅里叶手势距离(FGD)(Yoon等人,2020年):衡量实际和生成手势序列在姿势嵌入空间分布之间的差异。FGD的计算如下:
(13)其中,和分别是实际和生成手势序列在姿势嵌入空间中的均值,和分别是实际和生成手势序列在姿势嵌入空间中的协方差矩阵。
Frechet Inception Distance (FID): Heusel等人(2017)通过比较在预训练的手势识别网络Rautaray和Agrawal(2012)中生成手势的特征分布来衡量生成的手势的质量和多样性。FID与FGD类似,但域是模型的特征空间:
(14) 其中,和分别是真实和生成手势序列的特征空间中的均值,而和分别是真实和生成手势序列的特征空间中的协方差矩阵。
表3展示了作者在上述评估指标上的模型性能与最先进 Baseline 的全面比较。作者的完整模型,结合了基于注意力的精炼和对抗训练,在所有指标上取得了最佳性能,远远超过了 Baseline 。低FGD和FID分数表明,作者的模型生成的手势在质量和多样性方面都与真实的手势高度相似。高的APD分数表明,作者的模型产生了广泛而多样的手势,避免了重复和单调。
为了更好地理解作者模型中每个组件的贡献,作者进行了一项消融研究,通过评估在有无基于注意力的优化和对抗训练的模型性能。如表3所示,基于注意力的优化和对抗训练都对模型的整体性能做出了显著贡献。移除其中任何一个组件,所有评估指标上的性能都会明显下降,而对抗训练对性能的影响略大于基于注意力的优化。
为了进一步分析作者的模型组件,特别是对抗训练,对生成的手势的影响,作者提出了两个关键指标:手势逼真度评分(GRS)和手势多样性指数(GDI)。
手势逼真度评分(GRS)衡量了生成的手势的感知逼真度,基于一个学习的判别器网络进行计算。GRS的计算公式为:
其中,表示生成的手势序列数量,表示鉴别器网络,表示第个生成的手势序列。
为了评估手势序列的多样性,作者采用了手势多样性指数(GDI),计算方法如下:
在这里, 和 分别表示嵌入的姿势序列, 是一种类似于欧几里得距离的度量。生成手势的多样性可以通过 GDI 值接近 1 得到良好体现。
如图5所示,使用对抗训练显著提高了生成的手势的感知真实性和多样性,这可以通过更高的GRS和GDI分数来表示。完整的LBLM-AVA模型在两个指标(GRS: 0.85,GDI: 0.75)上取得了最高分,而移除对抗训练会导致最大的下降(GRS: 0.68,GDI: 0.62)。
对抗训练不仅增强了生成的手势的真实性和多样性,同时也促进了训练过程中的稳定性,并降低了模式崩溃的风险(Goodfellow等人,2014年)。结果显示,在实施对抗训练后,GRS和GDI显著增加,表明手势输出的真实性和多样性得到了改善(Saleh,2022年)。
总体观察模型,而非完成传统消融研究,作者可以依次添加每个组件,直到构建完整的LBLM-AVA模型。
基准模型仅使用多模态嵌入,在所有指标上表现出最差性能。
加入Transformer-XL架构在所有指标上都有显著提升,特别是FGD和FID,表明增强了手势质量和连贯性。
进一步引入多头自注意力机制,可以进一步提升模型的性能,尤其是在手势多样性(APD)和真实度(GRS)方面。
并行扩散组件引入了另一个显著改进,尤其是在FGD和FID上,表明整体手势质量更好。
主要提高手势的平滑度和连贯性,这在改善了 FGD,FID 和 GRS 分数中得到体现。
注意基础优化模块(Attention-Based Refinement module)进一步提升了FGD、FID和APD指标。然而,GRS和GDI略有下降,可能是因为优化过程降低了手势的一些变异性。
最后,通过添加对抗训练,完整地实现了LBLM-AVA模型,从而在所有指标上实现了最佳性能。这一点在手势真实度(GRS)和多样性(GDI)的显著改善上尤为明显。
这增量分析明确地展示了LBLM-AVA架构中每个组件的价值。包括所有组件在内的完整模型实现了最佳的整体性能,这强调了本文中引入的各种建筑创新所产生的协同效应。
定量指标表明对抗训练以及其他关键组成部分(如基于注意力的精炼和时间平滑)对多模态手势生成模型性能产生了显著影响。这些组件使得生成的手势不仅具有现实性和多样性,而且还具有令人愉悦的属性,有助于增强和沉浸式的虚拟角色互动(Slater和Wilbur,1997)。
在这项工作中,作者提出了大型身体语言模型(LBLMs)并提出了LBLM-AVA,一种新颖的架构,该架构将Transformer-XL和扩散模型相结合,以在实时对话环境中从多模态输入中生成真实且符合上下文的动作。大量的评估表明,LBLM-AVA实现了最先进的性能,超过了现有方法。
发展Allo-AVA,这是一个大规模、多模态的 human communication 数据集,对于训练强大且表达丰富的 LBLMs 至关重要。与现有数据集相比,数据量增加了240倍,并涵盖了广泛的交流情境,Allo-AVA 成为了推动手势生成和多模态通信建模研究的宝贵资源。
作者的工作为创建具有人类实时、多模态交流中细腻和表达能力的虚拟 Agent 开启了新的可能性。LBLMs有可能通过实现更自然、互动和沉浸式的人机交互,改变包括虚拟助手、社交机器人、远程存在系统和教育技术的多个领域。
然而,尽管它们具有许多优势,但也存在许多缺点。手势生成可以用于深度伪造,其中来自权势行人和来源的不可识别的运动被广泛使用。作者的数据集试图通过使分布多样化来解决这个问题,但这个问题在模型架构本身中仍然存在。
[0]. Large Body Language Models.