打败假动作，让虚拟人学会‘真实行动’！高德、清华等提出人与环境交互新框架FantasyHSI

AI生成未来

发布于 2025-11-17 15:19:58

1310

文章链接：https://arxiv.org/abs/2509.01232 项目地址：https://fantasy-amap.github.io/fantasy-hsi/

亮点直击

设计了一种新颖的HSI框架，以视频生成和无配对数据的多智能体系统为中心，将复杂的交互过程建模为一个动态有向图，在此基础上构建了一个协作的多智能体系统。
多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体，一个将远景目标分解为原子动作的规划智能体，和一个批评智能体，通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制，能够动态修正由生成模型的随机性引起的轨迹漂移，从而确保长期的逻辑一致性。
利用强化学习来训练动作生成器，显著减少了肢体扭曲和脚滑动等伪影，保持生成的一致性和物理性。

总结速览

效果总览

角色模型

解决的问题

适应性挑战和成对数据集依赖：作为通用智能体，人类能够执行各种复杂的交互任务，灵活地响应观察到的环境信息，并快速适应新环境。然而，当前的方法与人类智能的这一水平仍然存在显著差距。许多方法依赖于成对的人机环境数据，这通常需要在特定环境中收集大量匹配的动作捕捉和场景数据。因此，当面对未知的物体布局或动态变化时，它们缺乏适应性，难以涵盖现实世界中丰富多样的交互。
高级动作完成性挑战：而一些方法尝试利用视觉语言模型 (VLM) 的先验知识来绕过对配对数据集的依赖或视频扩散模型（VDM）以零样本方式生成人与环境交互序列，这些序列通常仅限于诸如坐下或触摸等低级简单动作。它们不适用于高级任务，例如探索城堡。
生成动作的物理性挑战：生成的动作还必须在物理上合理。任何视觉伪影，例如肢体变形或脚部滑动，都违反物理定律，严重损害结果的真实感和实际应用。

提出的方案

动态有向图建模：将复杂的环境场景建模为动态有向图。通过将基于 VLM 的多智能体与 VDM 相结合，FantasyHSI 实现了有效的环境感知和规划，根据环境反馈调整人体运动，生成物理上合理的人体动作序列，并消除了对人-环境配对数据集的依赖。
多智能体系统：该系统包含一个用于环境感知和理解的场景导航智能体，以及一个执行高级任务分解的规划智能体，将长期目标分解为原始动作。至关重要的是，为了解决生成模型固有的随机性，我们引入了一个评判智能体来形成闭环反馈回路，量化生成动作与规划轨迹之间的差异，从而能够动态校正偏离的节点状态。这种协同多智能体架构将感知、规划和校正统一起来，从而解决了由生成随机性引起的轨迹漂移问题，并确保了在长期交互中持续的逻辑一致性和物理可行性。
强化学习优化生成的物理性：使用强化学习优化VDM设计了一个可控的、物理增强的动作生成器，这显著提高了生成动作的物理真实感。

达到的效果

可解释性：提出了一种使用动态有向图进行长远人与环境交互的新方法，为感知、规划和行为细化建立了可解释的基础。
多智能体协作：开发了一个协作多智能体系统，该系统集成了环境感知、路径规划和闭环校正，以纠正由生成模型固有的随机性引起的动作偏差。
物理性强化：通过使用强化学习优化 VDM 设计了一个可控的、物理增强的动作生成器，这显著提高了生成动作的物理真实感。
实验验证：在泛化能力、长期任务完成能力和物理真实感方面显著优于现有方法。

方法

给定 3D 场景和高级指令，首先将任务形式化为动态有向图，然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正，并采用强化学习来增强图中每条边的生成器的物理定律。

动态有向图构建

为了为多智能体提供一种可解释的表示方法，将任务建模为一个有向图，其中是节点集合，表示有向边的集合。每个节点代表在特定时间点上的人类与三维场景的状态。人类状态和场景状态均通过三维网格表示。采用 SMPL-X (Pavlakos 等, 2019) 来建模人体姿态与运动。此外，由于某些节点表示达到了关键目标（例如到达山顶或离开农场），将节点集划分为两类：一组关键节点，用于表示重要的里程碑成就；以及一组非关键节点，对应于单个动作单元的完成，但尚未实现关键目标。因此，一系列相邻的非关键节点及其对应的边可以形成一条有向路径，连接两个关键节点，从而表示人类角色在三维场景中通过执行一系列动作单元来完成另一个关键任务的过程，最终达到由新到达的关键节点所表示的目标状态。

关键节点定义

一条有向边表示节点中的人类执行了一个动作，从而导致状态转变为由节点描述的新状态，将此状态转移形式化为。这里，表示一个具有完整语义意义的动作单元。

考虑到长时间的人体运动实际上是由连续的逐帧动作序列构成的，若将每一帧的人-场景状态都定义为一个独立节点，则会导致图结构过于复杂。因此，仅将每个动作单元的起始状态和结束状态定义为节点和。通过这种方式，每个动作单元前后的人类状态和，连同其对应的场景状态和，共同构成了相邻的节点对和。

多智能体系统

如下图3所示，当接收到场景中人类需要完成的高层任务时，场景导航智能体首先分析三维场景，并识别出实现该高层任务所需的关键子目标。随后，该智能体制定一个综合计划，整合空间轨迹与关键子目标，以生成图中的关键节点。接着，动作链规划智能体生成一段由文本描述的动作链，构建连接相邻关键节点的动作序列。接下来，第3.3节中的生成器根据动作链规划智能体所规划的每个动作单元合成人类动作，从而构造一条有向路径。由于生成模型本身具有随机性，生成的动作可能与初始规划存在偏差，因此该过程可能向原始有向图中引入新的、未规划的节点。当出现此类未规划节点时，评判智能体会分析这些节点，并在后续动作生成过程中引导视频生成器逐步返回到已规划的关键节点。该机制使得系统能够回溯至目标节点，剪枝错误节点，同时优化可行路径。

通过场景导航智能体进行关键节点规划

场景导航智能体负责识别完成给定高层任务所需的关键子目标，并基于高层任务的自然语言描述、初始人类位置以及初始三维场景状态，生成一个包含空间轨迹与关键事件的综合计划。该计划在图中表示为一系列关键节点。

规划智能体

基于场景导航智能体生成的关键节点与轨迹，动作链规划智能体将完成每个子目标所需的运动分解为一系列动作单元，每个动作单元均以自然语言描述。此处，动作单元被定义为最小语义运动单位，表示在三秒内语义连贯的动作。尽管长时间复杂的人类运动可被分解为短小且有意义的动作单元，但由于现实场景中人类动作的多样性极高，这些原子单元并非一个有限集合。在该工作中，这些动作单元可表示复杂的人类行为（例如“打哈欠”）或简单的机械运动（例如“向后转身”）。在将运动分解为更细粒度的动作单元序列的同时，动作链规划智能体实际上通过在相邻关键节点之间添加中间非关键节点及边集来扩展图。这些新增的非关键节点和边通过动作单元链对关键节点之间的状态转移进行建模，从而实现高层规划与底层动作执行之间的衔接。

有向路径生成

结合物理规律增强的视频生成模型在框架中充当人类模拟器，实例化所有节点之间的有向边，形成一条有向路径，引导智能体从初始状态逐步达到场景导航智能体所规划的各个关键目标，从而完成整体任务。该方法首先使用文本条件图像到视频模型生成每个动作单元的视频片段，然后通过动作捕捉技术将人体动作提升至三维场景中。通过迭代地将捕捉到的动作与场景的最终三维状态渲染为下一阶段视频生成的初始帧，该方法能够构建连续且场景感知的动作链，使虚拟智能体能够在任意环境中执行长周期、开放式的任务。具体而言，首先将当前节点中场景内的人类的快照渲染为视频生成模型的第一帧，并以图中动作单元的详细描述作为提示生成视频片段。随后，对生成的视频应用动作捕捉（Yin 等, 2024），提取SMPL-X格式的三维动作序列。为将动作还原至三维场景，将每一帧的动作变化应用到三维场景中的虚拟人身上。完成动作单元后，通过实例化的边将人-场景状态从节点更新至。该更新后的节点随即被渲染为下一段视频的初始帧，从而支持后续动作的迭代生成。通过重复此过程，在图中构建出一条有向路径，使虚拟人类能够在三维空间中按智能体规划执行动作与任务。

通过评判智能体进行剪枝与回溯

由于视频生成过程本身具有内在随机性以及语言提示不可避免的模糊性，生成的动作序列有时可能导致虚拟人类偏离智能体规划的路径。例如，在生成“边走边欣赏风景”的视频片段时，行进的距离与方向只能被粗略控制。此外，对于“困倦地伸懒腰”这类文本描述的动作，视频生成模型可能会额外生成“打哈欠”等动作以表达人物的困意。这会导致在场景导航智能体与动作链规划智能体构建的图中引入新的节点。在某些情况下，这些额外动作和偏差增强了整体行为的表现力，但也可能造成计划的干扰。为处理这些因偏差和未规划动作而生成的新节点，采用一个评判智能体，首先评估这些新节点，并在必要时进行修正。具体而言，对于每一段生成并捕捉到的动作片段，评判智能体会分析对应的渲染帧，评估动作质量，并对轨迹与姿态进行修正。

生成器的物理规律增强

采用强化学习方法来增强视频扩散模型在生成符合物理规律的动作以及精确遵循指令方面的能力。具体而言，为提升模型在指令遵循、运动伪影（包括肢体截断、不自然动作）、肢体形变以及场景一致性等方面的表现，使用以下四个模型生成样本：VEO、HunYuan-Video 、Runway 和 Kling 。专业标注人员根据上述标准对生成的样本进行标注，区分出正样本和负样本。利用DPO对开源的Wan模型进行训练，从而提升其生成视频在物理真实性和整体质量方面的能力。

实验

实验设置

实现细节：对于通过DPO增强物理规律感知能力的视频生成器，采用 Wan2.1-I2V-14B作为基础模型。该模型在包含约10,000个偏好对的自建数据集上进行训练，使用8块A100 GPU训练约20小时，学习率设置为，DPO损失中的参数设置为5000。在推理阶段，采用30步扩散过程，并将无分类器引导的缩放系数设为4.5。多智能体系统中的视觉语言模型（VLM）采用 Gemini-2.5-Pro。

设置评估：为系统性地评估所提出方法，实验在两种设置下进行：场景交互评估与场景感知及响应评估。

场景交互评估：评估模型在静态环境中生成合理人-场景交互的能力，其中场景几何结构在整个运动过程中保持不变。
场景感知与响应评估：评估模型对环境中变化和障碍物的感知与反应能力。在此设置中，将常见的现实世界障碍物（包括已见的如椅子、沙发、花瓶，以及新颖的如南瓜、岩石等）引入模型预规划的路径中。模型必须首先检测到障碍物，并做出相应反应。该评估不仅测试模型对未见物体的鲁棒性，更重要的是检验其如何感知环境并作出响应。

评估数据集：由于目前缺乏公开可用的人-场景交互（HSI）基准，系统性评估仍具挑战性。例如，TRUMANS 仅发布了训练数据集而无标准化测试集，其他工作如 LINGO 尚未公开其评估集。为此，构建了 SceneBench，一个包含多样化3D环境的评估基准，旨在评估虚拟人在室内外场景中的具身行为表现。总计包含 20个不同的3D场景，其中10个室内、10个室外，涵盖住宅空间（如卧室、牛棚、健身房）、自然景观（如草原、河岸）、城市街道和乡村农场等。

实验分析

场景交互能力评估：如下图4(a)所示，展示了 FantasyHSI 与基线方法在 SceneBench 上的场景交互能力的定性对比。结果表明，所提方法在多种环境中生成了生动且富有表现力的动作，能够完成超越简单行走或触碰的多样化高层人-场景交互任务。例如，该方法能够生成高度抽象且类人的行为，如在垃圾堆旁扇鼻子、坐在窗台等非典型位置，甚至如下图1所示，能够攀爬20米长的梯子到达屋顶，而所有其他方法在这些任务上均失败。定性分析显示，TRUMANS 存在严重的训练数据分布过拟合问题，在遇到新物体时默认仅生成坐姿动作。如图4(a)第一列所示，该方法未能感知窗台的实际高度，而是生成了与训练数据中标准椅子高度一致的坐姿。此外，LINGO 在未见环境中难以准确感知表面边界（如图4(a)第三、四列所示），场景理解能力有限，导致严重穿透现象，无法为高度抽象的交互任务（第二列）生成合理动作。尽管 PedGen 能生成时间上连贯的行走序列，但其动作多样性极低，缺乏执行有意义场景交互的能力。如表1所示，该方法在CLIP Score和动作多样性方面达到最高值，同时在穿透率（Penetration）和帧间相似度（FS）指标上最低，大多数指标均优于现有方法。这表明所提方法生成的动作在语义对齐性、物理合理性及多样性方面表现更优。

场景感知与响应能力评估：在场景感知与响应能力评估中，图4(b)展示了定性对比结果。在所有方法中，仅有该方法成功感知到障碍物（南瓜）并生成合理的应对行为，例如跨过障碍物。尽管 TRUMANS 和 LINGO 能通过占据栅格检测障碍物的存在，但其感知范围局限于虚拟人周围1米的立方体区域（以点云表示）。该有限的感知范围截断了周围物体的完整点云，导致模型无法感知物体的完整结构，造成语义信息严重丢失。因此，LINGO 仅生成回头一瞥的动作，而 TRUMANS 未能生成任何合理反应，既未成功避开也未与障碍物发生有效交互。相比之下，PedGen 的障碍物感知能力极差，直接穿过南瓜而无任何反应行为。与视觉观察一致，如表1所示，该方法在“障碍物穿透得分”（Penetration Obstacle Score）和“反应多样性得分”（Reaction Divergence Score）上均优于所有对比方法，表明其具备更优的场景理解与响应能力。

多智能体框架消融实验：为评估所提出的多智能体协同框架的有效性，进行了一项消融实验：在该设置中，不引入任何智能体进行动作规划或将复杂动作分解为动作单元链。此时，复杂动作直接通过视频生成模型生成。如图5第二行所示，在“跳上围栏”的任务中，由于缺乏由多智能体提供的详细动作规划作为指令，模型未能生成期望的动作序列。相比之下，所提方法将复杂运动分解为一系列动作单元。基于这一详细计划，虚拟人首先被指示用手扶住岩石以获得支撑，随后跃起并双脚稳稳落在岩石顶部，从而成功完成整体动作。此外，如表1所示，CLIP-S 分数显著下降表明，在缺少多智能体组件将主目标分解为清晰子任务的情况下，模型难以达成任务目标。该结果验证了多智能体框架在任务分解与结构化规划中的关键作用。

评判智能体消融实验：为评估评判智能体在方法中的有效性，进行了包含与不包含该组件的对比实验。如下图5所示，在未引入评判智能体所提供的评估与回溯机制时，模型无法纠正偏离预期路径的行为，最终未能到达规划的目标位置。而当引入评判智能体后，系统能够成功引导虚拟人重新回到目标位置。进一步地，如下表1所示，移除评判智能体导致 CLIP 分数显著降低，表明模型在完成指定目标方面存在困难。同时，Diversity（多样性）指标的上升主要源于生成了更多偏离主路径的动作片段——这些片段在完整系统中本应被评判智能体识别、回溯并剪枝。这说明评判智能体不仅提升了任务完成度，还有效控制了无效行为的扩散。

强化学习消融实验：为验证采用DPO优化的视频生成模型的有效性，使用监督微调（SFT）模型和原始预训练模型在测试集上进行了对比实验。如图5和表1所示，尽管基础模型和SFT方法展现出一定程度的指令跟随能力，但其生成结果常出现违背物理规律的动态行为，包括角色穿透场景、肢体形变以及不自然的滑动运动等伪影。相比之下，经过DPO优化的方法显著增强了生成符合真实世界物理规律动态的能力，有效减少了上述问题，从而在视觉合理性和任务准确性方面取得了更优的整体表现。该结果证明了基于人类偏好反馈（DPO）对生成模型进行精细化调整在提升物理真实性方面的有效性。

消融结果

对比实验

结论

本工作提出了FantasyHSI，一种用于在复杂三维环境中合成富有表现力且符合物理规律的人-场景交互的新颖框架。通过将人-场景交互重新建模为动态有向图，构建了一个可解释的结构，用于刻画长周期交互过程。该框架集成了基于视觉语言模型的多智能体协同系统，涵盖场景理解、分层规划与轨迹修正等能力。此外，采用基于强化学习的方法对视频扩散模型进行优化，确保生成的动作符合物理规律，有效消除了足部滑动、身体与场景穿透等常见伪影。实验结果表明，FantasyHSI 在面对未见场景和长周期任务时展现出优于现有方法的泛化能力，同时保持了高真实感的运动质量与逻辑一致性。