Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【他山之石】CVPR 2024 | 4D人体运动、渲染联合建模新框架,打造动态人体渲染新范式

【他山之石】CVPR 2024 | 4D人体运动、渲染联合建模新框架,打造动态人体渲染新范式

作者头像
马上科普尚尚
发布于 2024-05-15 10:22:56
发布于 2024-05-15 10:22:56
26200
代码可运行
举报
运行总次数:0
代码可运行

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!

摘要 · 看点

在日常活动中,人的运动经常引起衣服的附属运动(secondary motion of clothes)并因此产生不同的衣服褶皱,这需要对人体及衣服的几何、运动(人体姿态及速度动力学等)及外观同时进行动态建模。由于此过程涉及复杂的人与衣服的非刚体物理交互,导致传统三维表征往往难以应对。近年从视频序列中学习动态数字人渲染已取得了极大的进展,现有方法往往把渲染视为从人体姿态到图像的神经映射,采用“运动编码器→运动特征→外观解码器”的范式。而该范式基于图像损失做监督,过于关注每一帧图像重建而缺少对运动连续性的建模,因此对复杂运动如“人体运动及衣服附属运动”难以有效建模。

为解决这一问题,来自南洋理工大学-商汤科技联合研究中心 S-Lab 的研究团队提出运动-外观联合学习的动态人体重建新范式,并提出了基于人体表面的三平面运动表征(surface-based triplane),把运动物理建模和外观建模统一在一个框架中,为提升动态人体渲染质量开辟了新的思路。该新范式可有效对衣服附属运动建模,并可用于从快速运动的视频(如跳舞)中学习动态人体重建,以及渲染运动相关的阴影。在渲染效率上比三维体素渲染方法快9倍,LPIPS 图像质量提高约19个百分点。

论文名称:SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering

01 方法概览

针对已有范式运动编码器→运动特征→外观解码器”只关注于外观重建而忽略运动连续性建模的缺点,研究人员提出了新范式 SurMo “①运动编码器→运动特征→②运动解码器、③外观解码器” 如图所示,该范式分为三个阶段:

  • 区别于已有方法在稀疏三维空间对运动建模,SurMo 提出基于人体表面流形场(或紧凑的二维纹理 UV 空间)的四维(XYZ-T)运动建模,并通过定义在人体表面的三平面(surface-based triplane)表征运动
  • 提出运动物理解码器去根据当前运动特征(如三维姿态、速度、运动轨迹等)预测下一帧运动状态,如运动的空间偏导—表面法向量和时间偏导--速度,以此对运动特征做连续性建模
  • 四维外观解码,对运动特征在时序上解码以此渲染三维自由视点视频,主要通过混合体素-纹理神经渲染方式实现 (Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022])

SurMo 可基于重建损失和对抗损失端到端训练,从视频中学习动态人体渲染。

02 实验结果

该研究在3个数据集,共9个动态人体视频序列上进行了实验评估:ZJU-MoCap [Peng et al. 2021], AIST++ [Li, Yang et al. 2021] MPII-RRDC [Habermann et al. 2021]。

2.1 新视点时序渲染

该研究在 ZJU-MoCap 数据集上探究在新视点下对一段时序的动态渲染效果(time-varying appearances),特别研究了2段序列,如下图所示。每段序列包含相似的姿态但出现在不同的运动轨迹中,如①②、③④、⑤⑥。SurMo 可对运动轨迹建模,因此生成随时间变化的动态效果,而相关的方法生成的结果只取决于姿态,在不同轨迹下衣服的褶皱几乎一样。

2.2 渲染运动相关的阴影及衣服附属运动

SurMo 在 MPII-RRDC 数据集上探究了运动相关的阴影及衣服附属运动,如下图所示。该序列在室内摄影棚拍摄,在灯光条件下,由于自遮挡问题,表演者身上会出现与运动相关的阴影。SurMo 在新视点渲染下,可恢复这些阴影,如①②、③④、⑦⑧。而对比方法 HumanNeRF [Weng et al.] 则无法恢复与运动相关的阴影。此外,SurMo 可重建随运动轨迹变化的衣服附属运动,如跳跃运动中不同的褶皱⑤⑥,而 HumanNeRF 无法重建该动态效果。

2.3 渲染快速运动的人体

SurMo 也从快速运动的视频中渲染人体,并恢复与运动相关的衣服褶皱细节,而对比方法则无法渲染出这些动态细节。

2.4 消融实验

2.4.1

人体表面运动建模

该研究对比了两种不同的运动建模方式:目前常用的在体素空间(Volumetric space)的运动建模,以及 SurMo 提出的在人体表面流形场的运动建模(Surface manifold),具体比较了 Volumetric triplane 与 Surface-based triplane,如下图所示。可以发现,Volumetric triplane 是一种稀疏表达,仅有大约21-35%的特征用于渲染,而 Surface-based triplane 特征利用率可达85%,因此在处理自遮挡方面更有优势,如(d)所示。同时 Surface-based triplane 可通过体素渲染中过滤部分远离表面的点实现更快的渲染,如图(c)所示。

同时,该研究论证 Surface-based triplane 可比 Volumetric triplane 在训练过程收敛更快,在衣服褶皱细节、自遮挡上均有明显优势,如下图所示。

2.4.2

动力学学习

SurMo 通过消融实验研究了运动建模的效果,如下图所示。结果显示,SurMo 可解耦运动的静态特性(如某一帧下固定姿态)及动态特性(如速度)。例如当改变速度的时候,贴身衣服褶皱不变,如①;而宽松衣服褶皱则受速度影响较大,如②,这与日常人们的观测相一致。

相关资料

论文地址:

https://arxiv.org/pdf/2404.01225.pdf

项目主页:

https://taohuumd.github.io/projects/SurMo

GitHub链接:

https://github.com/TaoHuUMD/SurMo

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
在日常活动中,人的运动经常引起衣服的附属运动 (secondary motion of clothes) 并因此产生不同的衣服褶皱,而这需要对人体及衣服的几何、运动(人体姿态及速度动力学等)及外观同时进行动态建模。由于此过程涉及复杂的人与衣服的非刚体物理交互,导致传统三维表征往往难以应对。
机器之心
2024/04/26
1960
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
CVPR 2022 Oral | 创建一个属于你的高保真数字人,一段单目自转视频就够了
机器之心专栏 作者:中科大张举勇课题组 来自中科大的张举勇教授课题组联合杭州像衍科技有限公司与浙江大学,于近期一同提出一种基于单目 RGB 视频的高保真三维人体重建算法SelfRecon,该算法仅需输入目标对象一段十几秒的自转视频,即可恢复重建对象的高保真数字化身。 近年来,随着图形技术的快速发展,各类虚拟数字人开始走入我们的日常,如数字航天员小诤、百度智能云 AI 手语主播、腾讯 3D 手语数智人 “聆语” 等纷纷亮相。实际上,三维数字人技术于我们的日常生活早有应用,如早在 2015 年上映的电影《速度与
机器之心
2022/06/13
9070
CVPR 2022 Oral | 创建一个属于你的高保真数字人,一段单目自转视频就够了
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
7.6K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。
新智元
2020/06/01
5850
马普所开源ICON,显著提高单张图像重建三维数字人的姿势水平 | CVPR 2022
机器之心专栏 机器之心编辑部 本文介绍了马普所二年级 CS 博士生修宇亮(Yuliang Xiu)入选 CVPR 2022 的一项三维数字人姿态重建新研究 ——ICON[1]。在本文中,他将详述这项工作的来龙去脉,包括厘清本研究的动机及思维起点 (motivation)、梳理出这二十多页论文的主线、论文中没提及的洞见 (insight),并着重讲一下 ICON 的局限及改进思路。 3月17日19:00-20:00,修宇亮将带来线上分享,详细介绍本篇工作,直播详情见文末。 论文地址:https://r
机器之心
2022/03/16
1.3K0
基于少量图像的三维重建综述
基于少量图像的三维重建被认为是第三代人工智能的经典应用之一。在计算机图形学和计算机视觉领域,基于少量图像的三维重建任务因具有广泛的应用场景和很高的研究价值,长期以来吸引着众多学者的目光。引入深度学习方法后,该领域于近年来得到了长足发展。对此类基于少量图像的三维重建任务进行了全面阐述,并介绍了本研究组在该方面的系列工作,对其中涉及的数据类型进行分析,阐明其适用性和一般处理方法。此外,对常见的数据集进行分析、整理,针对不同重建方法,归纳出其基本框架、思路。最后,展示了一些常见三维重建的代表性实验结果,并提出了未来可能的研究方向。
一点人工一点智能
2023/08/25
1.3K0
基于少量图像的三维重建综述
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
通过无透镜成像实现3D人体姿态和形状估计不仅有利于保护隐私,而且由于设备体积小、结构简单,可用于军事等隐秘监测场景。
新智元
2024/06/17
2480
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。
机器之心
2025/02/19
2100
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
图1 GauHuman可以快速重建(1~2分钟)和实时渲染(高达189帧每秒) 高质量3D人体。
机器之心
2024/01/11
9540
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
街道场景的环境光源估计
本工作旨在解决从单目图像进户外环境光照估计的任务,尤其是街道场景。这是一个重要的任务,因为它支持虚拟对象插入,可以满足许多下游应用,例如虚拟建筑群中加入新的建筑,逼真地渲染游戏角色到周围环境中,或者作为一种数据增强方法来制作现实中很难采集的数据集,例如道路上的碎片和突然闯入动物,以训练更健壮和高性能的计算机视觉模型。
用户1324186
2022/11/07
1.7K0
街道场景的环境光源估计
7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文包括以色列特拉维夫大学的研究者提出的升级版StyleGAN可以生成精细的人脸图像;CVPR 2021 最佳论文、最佳学生论文等。 目录: Pivotal Tuning for Latent-based Editing of Real Images   Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data
机器之心
2023/03/29
4440
7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
多年以来,如何从单一图像估计人体的姿势和形状是多项应用都在研究的问题。研究者提出不同的方法,试图部分或者联合地解决此问题。本文将介绍一种端到端的方法,使用 CNN 直接从单个彩色图像重建完整的 3D 人体几何。
机器之心
2019/04/29
9840
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
多目标跟踪(MOT)是计算机视觉领域的一项重要技术,在移动机器人、自动驾驶(Sun等人,2020)和体育分析(Zhao等人,2023)等应用中发挥着重要作用。随着目标检测的最新进展,基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务:在每一帧中检测物体;以及跨多个帧关联这些物体。基于检测范式的核心是数据关联,这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处,但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。
集智书童公众号
2024/06/11
5110
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
南大清华发布《从单目图像中恢复三维人体网格》综述论文,涵盖246篇文献全面阐述单目3D人体网格恢复研究进展
---- 新智元报道   来源:专知 【新智元导读】来自南京大学和清华大学的最新研究论文《从单目图像中恢复三维人体网格》,提出了从而二维数据提升至三维网格过程中基于优化和基于回归的两种范式,第一次关注单目3D人体网格恢复任务的研究,并讨论了有待解决的问题和未来的发展方向。 从单目图像中估计人体的姿势和形状是计算机视觉领域中一个长期存在的问题。自统计学人体模型发布以来,三维人体网格恢复一直受到广泛关注。 为了获得有序的、符合物理规律的网格数据而开发了两种范式,以克服从二维到三维提升过程中的挑战:i)基于
新智元
2022/03/29
1K0
今日 Paper | 二氧化碳排放预测;3D人脸重建;BERTology入门;动态场景重建等
The Virtual Tailor: 基于人体姿态、形状和服装类型的3D服装预测
AI科技评论
2020/04/01
3450
今日 Paper | 二氧化碳排放预测;3D人脸重建;BERTology入门;动态场景重建等
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力,但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观,还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。
AIGC 先锋科技
2025/02/07
2930
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
---- 新智元报道   编辑:LRS 【新智元导读】SemanticHuman兼顾精细语义与几何刻画的三维人体表示,可实现部件级别的灵活可控编辑。 近年来三维人体表示学习受到越来越多的关注,不过现有工作由于受限于粗糙的语义和有限的表示能力无法灵活、可控、准确地表示人体,尤其是在缺乏配对监督数据的情况下。 针对上述问题,天津大学团队联合英国卡迪夫大学在CVPR2023的工作中提出一种兼顾精细语义与几何刻画的三维人体表示——SemanticHuman。 项目主页:http://cic.tju.edu.
新智元
2023/05/09
4080
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
作者 | 李梅 编辑 | 陈彩娴 如今,每隔一段时间就有新的文本生成图像模型释出,个个效果都很强大,每每惊艳众人,这个领域已经是卷上天了。 不过,像 OpenAI 的 DALL-E 2 或谷歌 的 Imagen 等 AI 系统,都只能生成二维图像,如果文字也能变成三维场景,那带来视觉体验势必加倍提升。 现在,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。 它可以捕捉复杂和逼真的 3D 场景分布,从移动摄像机中进行沉浸式渲染,还能根据文本提示来创建 3D 场景!该模型以 An
AI科技评论
2022/08/26
3860
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
三维世界的神经表达与渲染
首先提出一个问题:为什么需要去重建三维世界?这是因为我们身处在三维世界中,所以当需要数字化时,更希望真实场景的表达也是三维表达,这样就能从不同的视角去观察这个真实场景的物体。比如最近非常火的元宇宙,它就是通过这种技术帮助人和虚拟世界进行一个无缝的交互。
一点人工一点智能
2022/12/27
1.1K0
三维世界的神经表达与渲染
【他山之石】3D Gaussian Splatting:实时的神经场渲染
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
马上科普尚尚
2023/12/15
3.1K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
推荐阅读
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
1960
CVPR 2022 Oral | 创建一个属于你的高保真数字人,一段单目自转视频就够了
9070
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
7.6K0
CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
5850
马普所开源ICON,显著提高单张图像重建三维数字人的姿势水平 | CVPR 2022
1.3K0
基于少量图像的三维重建综述
1.3K0
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
2480
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
2100
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
9540
街道场景的环境光源估计
1.7K0
7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文
4440
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
9840
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
5110
南大清华发布《从单目图像中恢复三维人体网格》综述论文,涵盖246篇文献全面阐述单目3D人体网格恢复研究进展
1K0
今日 Paper | 二氧化碳排放预测;3D人脸重建;BERTology入门;动态场景重建等
3450
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
2930
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
4080
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
3860
三维世界的神经表达与渲染
1.1K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
3.1K0
相关推荐
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验