
文章链接:https://arxiv.org/abs/2509.01232 项目地址:https://fantasy-amap.github.io/fantasy-hsi/
亮点直击
给定 3D 场景和高级指令,首先将任务形式化为动态有向图,然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正,并采用强化学习来增强图中每条边的生成器的物理定律。
为了为多智能体提供一种可解释的表示方法,将任务建模为一个有向图 ,其中 是节点集合, 表示有向边的集合。每个节点 代表在特定时间点上的人类与三维场景的状态。人类状态 和场景状态 均通过三维网格表示。采用 SMPL-X (Pavlakos 等, 2019) 来建模人体姿态与运动。 此外,由于某些节点表示达到了关键目标(例如到达山顶或离开农场),将节点集 划分为两类:一组关键节点 ,用于表示重要的里程碑成就;以及一组非关键节点 ,对应于单个动作单元的完成,但尚未实现关键目标。因此,一系列相邻的非关键节点及其对应的边可以形成一条有向路径,连接两个关键节点,从而表示人类角色在三维场景中通过执行一系列动作单元来完成另一个关键任务的过程,最终达到由新到达的关键节点所表示的目标状态。
一条有向边 表示节点 中的人类 执行了一个动作 ,从而导致状态转变为由节点 描述的新状态,将此状态转移形式化为 。这里, 表示一个具有完整语义意义的动作单元。
考虑到长时间的人体运动实际上是由连续的逐帧动作序列构成的,若将每一帧的人-场景状态都定义为一个独立节点,则会导致图结构过于复杂。因此,仅将每个动作单元 的起始状态和结束状态定义为节点 和 。通过这种方式,每个动作单元前后的人类状态 和 ,连同其对应的场景状态 和 ,共同构成了相邻的节点对 和 。
如下图3所示,当接收到场景中人类需要完成的高层任务时,场景导航智能体首先分析三维场景,并识别出实现该高层任务所需的关键子目标。随后,该智能体制定一个综合计划,整合空间轨迹与关键子目标,以生成图 中的关键节点 。接着,动作链规划智能体生成一段由文本描述的动作链 ,构建连接相邻关键节点的动作序列。接下来,第3.3节中的生成器根据动作链规划智能体所规划的每个动作单元合成人类动作,从而构造一条有向路径。由于生成模型本身具有随机性,生成的动作可能与初始规划存在偏差,因此该过程可能向原始有向图中引入新的、未规划的节点。当出现此类未规划节点时,评判智能体会分析这些节点,并在后续动作生成过程中引导视频生成器逐步返回到已规划的关键节点。该机制使得系统能够回溯至目标节点,剪枝错误节点,同时优化可行路径。
场景导航智能体负责识别完成给定高层任务所需的关键子目标,并基于高层任务 的自然语言描述、初始人类位置 以及初始三维场景状态 ,生成一个包含空间轨迹与关键事件的综合计划。该计划在图 中表示为一系列关键节点 。

基于场景导航智能体生成的关键节点与轨迹,动作链规划智能体将完成每个子目标所需的运动分解为一系列动作单元,每个动作单元均以自然语言描述。此处,动作单元被定义为最小语义运动单位,表示在三秒内语义连贯的动作。尽管长时间复杂的人类运动可被分解为短小且有意义的动作单元,但由于现实场景中人类动作的多样性极高,这些原子单元并非一个有限集合。在该工作中,这些动作单元可表示复杂的人类行为(例如“打哈欠”)或简单的机械运动(例如“向后转身”)。 在将运动分解为更细粒度的动作单元序列的同时,动作链规划智能体实际上通过在相邻关键节点 之间添加中间非关键节点 及边集 来扩展图 。这些新增的非关键节点和边通过动作单元链对关键节点之间的状态转移进行建模,从而实现高层规划与底层动作执行之间的衔接。
结合物理规律增强的视频生成模型在框架中充当人类模拟器,实例化所有节点之间的有向边,形成一条有向路径,引导智能体从初始状态逐步达到场景导航智能体所规划的各个关键目标,从而完成整体任务。该方法首先使用文本条件图像到视频模型生成每个动作单元的视频片段,然后通过动作捕捉技术将人体动作提升至三维场景中。通过迭代地将捕捉到的动作与场景的最终三维状态渲染为下一阶段视频生成的初始帧,该方法能够构建连续且场景感知的动作链,使虚拟智能体能够在任意环境中执行长周期、开放式的任务。 具体而言,首先将当前节点 中场景 内的人类 的快照渲染为视频生成模型的第一帧,并以图中动作单元 的详细描述作为提示生成视频片段。随后,对生成的视频应用动作捕捉(Yin 等, 2024),提取SMPL-X格式的三维动作序列。为将动作还原至三维场景,将每一帧的动作变化应用到三维场景中的虚拟人身上。完成动作单元 后,通过实例化的边 将人-场景状态从节点 更新至 。该更新后的节点 随即被渲染为下一段视频的初始帧,从而支持后续动作的迭代生成。通过重复此过程,在图中构建出一条有向路径 ,使虚拟人类能够在三维空间中按智能体规划执行动作与任务。
由于视频生成过程本身具有内在随机性以及语言提示不可避免的模糊性,生成的动作序列有时可能导致虚拟人类偏离智能体规划的路径。例如,在生成“边走边欣赏风景”的视频片段时,行进的距离与方向只能被粗略控制。此外,对于“困倦地伸懒腰”这类文本描述的动作,视频生成模型可能会额外生成“打哈欠”等动作以表达人物的困意。这会导致在场景导航智能体与动作链规划智能体构建的图中引入新的节点。在某些情况下,这些额外动作和偏差增强了整体行为的表现力,但也可能造成计划的干扰。 为处理这些因偏差和未规划动作而生成的新节点,采用一个评判智能体,首先评估这些新节点,并在必要时进行修正。具体而言,对于每一段生成并捕捉到的动作片段,评判智能体会分析对应的渲染帧,评估动作质量,并对轨迹与姿态进行修正。
采用强化学习方法来增强视频扩散模型在生成符合物理规律的动作以及精确遵循指令方面的能力。具体而言,为提升模型在指令遵循、运动伪影(包括肢体截断、不自然动作)、肢体形变以及场景一致性等方面的表现,使用以下四个模型生成样本:VEO、HunYuan-Video 、Runway 和 Kling 。专业标注人员根据上述标准对生成的样本进行标注,区分出正样本 和负样本 。利用DPO对开源的Wan模型 进行训练,从而提升其生成视频在物理真实性和整体质量方面的能力。
实现细节:对于通过DPO增强物理规律感知能力的视频生成器,采用 Wan2.1-I2V-14B作为基础模型。该模型在包含约10,000个偏好对的自建数据集上进行训练,使用8块A100 GPU训练约20小时,学习率设置为 ,DPO损失中的参数 设置为5000。在推理阶段,采用30步扩散过程,并将无分类器引导的缩放系数设为4.5。 多智能体系统中的视觉语言模型(VLM)采用 Gemini-2.5-Pro。
设置评估:为系统性地评估所提出方法,实验在两种设置下进行:场景交互评估与场景感知及响应评估。
评估数据集:由于目前缺乏公开可用的人-场景交互(HSI)基准,系统性评估仍具挑战性。例如,TRUMANS 仅发布了训练数据集而无标准化测试集,其他工作如 LINGO 尚未公开其评估集。为此,构建了 SceneBench,一个包含多样化3D环境的评估基准,旨在评估虚拟人在室内外场景中的具身行为表现。总计包含 20个不同的3D场景,其中10个室内、10个室外,涵盖住宅空间(如卧室、牛棚、健身房)、自然景观(如草原、河岸)、城市街道和乡村农场等。
场景交互能力评估:如下图4(a)所示,展示了 FantasyHSI 与基线方法在 SceneBench 上的场景交互能力的定性对比。结果表明,所提方法在多种环境中生成了生动且富有表现力的动作,能够完成超越简单行走或触碰的多样化高层人-场景交互任务。例如,该方法能够生成高度抽象且类人的行为,如在垃圾堆旁扇鼻子、坐在窗台等非典型位置,甚至如下图1所示,能够攀爬20米长的梯子到达屋顶,而所有其他方法在这些任务上均失败。 定性分析显示,TRUMANS 存在严重的训练数据分布过拟合问题,在遇到新物体时默认仅生成坐姿动作。如图4(a)第一列所示,该方法未能感知窗台的实际高度,而是生成了与训练数据中标准椅子高度一致的坐姿。此外,LINGO 在未见环境中难以准确感知表面边界(如图4(a)第三、四列所示),场景理解能力有限,导致严重穿透现象,无法为高度抽象的交互任务(第二列)生成合理动作。尽管 PedGen 能生成时间上连贯的行走序列,但其动作多样性极低,缺乏执行有意义场景交互的能力。 如表1所示,该方法在CLIP Score和动作多样性方面达到最高值,同时在穿透率(Penetration)和帧间相似度(FS)指标上最低,大多数指标均优于现有方法。这表明所提方法生成的动作在语义对齐性、物理合理性及多样性方面表现更优。


场景感知与响应能力评估:在场景感知与响应能力评估中,图4(b)展示了定性对比结果。在所有方法中,仅有该方法成功感知到障碍物(南瓜)并生成合理的应对行为,例如跨过障碍物。 尽管 TRUMANS 和 LINGO 能通过占据栅格检测障碍物的存在,但其感知范围局限于虚拟人周围1米的立方体区域(以点云表示)。该有限的感知范围截断了周围物体的完整点云,导致模型无法感知物体的完整结构,造成语义信息严重丢失。因此,LINGO 仅生成回头一瞥的动作,而 TRUMANS 未能生成任何合理反应,既未成功避开也未与障碍物发生有效交互。相比之下,PedGen 的障碍物感知能力极差,直接穿过南瓜而无任何反应行为。 与视觉观察一致,如表1所示,该方法在“障碍物穿透得分”(Penetration Obstacle Score)和“反应多样性得分”(Reaction Divergence Score)上均优于所有对比方法,表明其具备更优的场景理解与响应能力。
多智能体框架消融实验:为评估所提出的多智能体协同框架的有效性,进行了一项消融实验:在该设置中,不引入任何智能体进行动作规划或将复杂动作分解为动作单元链。此时,复杂动作直接通过视频生成模型生成。如图5第二行所示,在“跳上围栏”的任务中,由于缺乏由多智能体提供的详细动作规划作为指令,模型未能生成期望的动作序列。 相比之下,所提方法将复杂运动分解为一系列动作单元。基于这一详细计划,虚拟人首先被指示用手扶住岩石以获得支撑,随后跃起并双脚稳稳落在岩石顶部,从而成功完成整体动作。此外,如表1所示,CLIP-S 分数显著下降表明,在缺少多智能体组件将主目标分解为清晰子任务的情况下,模型难以达成任务目标。该结果验证了多智能体框架在任务分解与结构化规划中的关键作用。
评判智能体消融实验: 为评估评判智能体在方法中的有效性,进行了包含与不包含该组件的对比实验。如下图5所示,在未引入评判智能体所提供的评估与回溯机制时,模型无法纠正偏离预期路径的行为,最终未能到达规划的目标位置。而当引入评判智能体后,系统能够成功引导虚拟人重新回到目标位置。 进一步地,如下表1所示,移除评判智能体导致 CLIP 分数显著降低,表明模型在完成指定目标方面存在困难。同时,Diversity(多样性)指标的上升主要源于生成了更多偏离主路径的动作片段——这些片段在完整系统中本应被评判智能体识别、回溯并剪枝。这说明评判智能体不仅提升了任务完成度,还有效控制了无效行为的扩散。

强化学习消融实验:为验证采用DPO优化的视频生成模型的有效性,使用监督微调(SFT)模型和原始预训练模型在测试集上进行了对比实验。如图5和表1所示,尽管基础模型和SFT方法展现出一定程度的指令跟随能力,但其生成结果常出现违背物理规律的动态行为,包括角色穿透场景、肢体形变以及不自然的滑动运动等伪影。 相比之下,经过DPO优化的方法显著增强了生成符合真实世界物理规律动态的能力,有效减少了上述问题,从而在视觉合理性和任务准确性方面取得了更优的整体表现。该结果证明了基于人类偏好反馈(DPO)对生成模型进行精细化调整在提升物理真实性方面的有效性。

本工作提出了FantasyHSI,一种用于在复杂三维环境中合成富有表现力且符合物理规律的人-场景交互的新颖框架。通过将人-场景交互重新建模为动态有向图,构建了一个可解释的结构,用于刻画长周期交互过程。 该框架集成了基于视觉语言模型的多智能体协同系统,涵盖场景理解、分层规划与轨迹修正等能力。此外,采用基于强化学习的方法对视频扩散模型进行优化,确保生成的动作符合物理规律,有效消除了足部滑动、身体与场景穿透等常见伪影。实验结果表明,FantasyHSI 在面对未见场景和长周期任务时展现出优于现有方法的泛化能力,同时保持了高真实感的运动质量与逻辑一致性。
[1] FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!