前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你 | ECCV2020

谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你 | ECCV2020

作者头像
新智元
发布于 2021-01-25 08:00:14
发布于 2021-01-25 08:00:14
9560
举报
文章被收录于专栏:新智元新智元


新智元报道

来源:外媒

编辑:keyu

【新智元导读】近日,Google引入了将二维人体姿态映射到视图不变概率嵌入空间的Pr-VIPE模型,使用15块CPU在一天时间内即可完成训练。该模型中学习到的嵌入,可以直接用于姿态检索、动作识别和视频对齐等应用。此外,研究人员还提出了一个交叉视图检索基准,可以用来测试其他嵌入的视图不变属性。

我们知道,日常活动,如慢跑,读书,倒水,或运动,都可以被视为一系列的姿势。

而理解图像和视频中的姿势,是实现一系列应用的关键步骤,包括增强现实显示、全身姿势控制和体育锻炼量化等等。

然而,在二维图像和视频中捕捉到的三维姿态,会随着相机的视角的变化而有不同的呈现。

如果仅使用2D信息,就能识别3D姿势的相似性,那么这将有助于视觉系统更好地理解世界。

针对此问题,近日,Google更新了一项研究“人体姿态的视图不变概率嵌入”(View-Invariant Probabilistic Embedding for Human Pose)(Pr-VIPE)。

在该研究中,研究人员提出了一种新的人体姿态感知算法,可以通过将二维人体姿态关键点映射到视图不变嵌入空间,来识别不同相机视图下人体姿态的相似性。该论文现已作为“spotlight paper”,发表在ECCV2020中。

在这种能力的加持下,计算机可以实现如姿态检索,动作识别,动作视频同步等等任务。

图:Pr-VIPE可以直接应用于从不同的视图实现视频的对齐

“两个观察”成为Pr-VIPE建立基石,概率映射教会机器匹配情况

Pr-VIPE的输入是一组2D关键点,这些关键点来源于至少产生13个身体关键点的2D位姿估计器,而Pr-VIPE输出则是位姿嵌入的均值和方差。 其中,二维位姿嵌入之间的距离与它们在绝对三维位姿空间中的相似性相关。 研究人员的方法主要是基于两个观察结果而提出的: 1、同样的3D姿势在2D中可能会随着视点的变化而出现非常不同的效果。 2、同样的2D姿势可以从不同的3D姿势投射出来。 第一个观察结果激发了视图不变性的需要。 为了满足这一需要,研究人员定义了匹配概率,即不同的2D姿态从相同或相似的3D姿态投射出来的可能性。 同时,Pr-VIPE预测的姿态对匹配的匹配概率,应该高于非匹配的姿态对匹配概率。 为了解决第二个观察结果,Pr-VIPE利用了一个概率嵌入公式。 由于许多3D位姿可以投影到相同或类似的2D位姿,模型输入显示出一种固有的模糊性,很难通过嵌入空间中的确定性点对点映射来捕捉。 因此,研究人员采用了通过概率映射进而映射到嵌入分布的方法,并使用方差来表示输入2D位姿的不确定性。 例如,在下图中,左侧3D姿势的第三个2D视图与右侧不同3D姿势的第一个2D视图相似,所以研究人员将它们映射到嵌入空间的一个相似的位置上,并将方差设置为一个很大的值。

图:Pr-VIPE使视觉系统能够跨视图识别2D姿态

视图不变性(View-Invariance)

在训练过程中,研究人员使用了两个来源的2D姿态:多视图图像和groundtruth3D姿态的投影。

他们从batch中选取二维位姿的“三胞胎”(anchor、positive和negative),其中anchor和positive是同一三维位姿的两个不同投影,negative是一个不匹配的三维位姿的投影。

然后,Pr-VIPE根据二维姿态对的嵌入情况估计其匹配概率。

图:Pr-VIPE模型概述

在训练期间,研究人员应用了三种损失(三重比损失,正成对损失,以及在嵌入之前应用的单位高斯的先验损失)。在推理过程中,模型将输入的2D姿态映射到概率的视图不变嵌入。

概率嵌入(Probabilistic Embedding)

Pr-VIPE将二维姿态映射为多元高斯分布,并使用基于抽样的方法,计算两个分布之间的相似度评分。

在训练过程中,研究人员使用了高斯先验损失,对预测分布进行正则化。

提出新姿态检索基准, Pr-VIPE在多个数据集上效果突出

在实验部分,研究人员提出了一个新的交叉视图姿态检索基准,来评估嵌入的视图不变性。

给定单目姿态图像,交叉视图检索的目的是在不使用相机参数的情况下,从不同的视角检索相同的姿态。

结果表明,在两个评估的数据集(Human3.6M, MPI-INF-3DHP)中,与baseline方法相比,Pr-VIPE在各个视图之间可以检索出更准确的姿态:

图:相对于基线方法(3D姿态估计),Pr-VIPE更准确地检索跨不同视图的姿态

常见的3D姿态估计方法(如SemGCN和EpipolarPose等)在相机坐标中预测3D姿态,而这些并不具有视图不变性。

因此,使用估计的三维姿态检索时,每个查询-索引对之间的刚性对齐是必需的,由于需要奇异值分解(SVD),因此在计算上非常昂贵。

相比而言,Pr-VIPE嵌入可以直接用于欧氏空间的距离计算,不需要任何后处理。

提升交叉视图检索和视频对齐表现,Pr-VIPE 应用广泛

视图不变姿态嵌入可以应用于许多图像和视频相关的任务。

下面,研究人员展示了Pr-VIPE在不使用相机参数的情况下,应用于实际情况下的交叉视图检索:

图:通过使用Pr-VIPE嵌入检测到的二维姿态

同样的Pr-VIPE模型也可以用于视频对齐。

为此,研究人员在一个小的时间窗口内堆栈Pr-VIPE嵌入,并使用动态时间规整(Dynamic Time Warping,DTW)算法来对齐视频对。

图:手动视频对齐既困难又耗时。这里,Pr-VIPE被用于自动对齐不同视图中重复相同动作的视频。

通过DTW计算出的视频对齐距离,可以使用最近邻搜索对视频进行分类,并用于动作识别。

研究人员使用Penn动作数据集评估了Pr-VIPE嵌入,并证明了使用Pr-VIPE嵌入,可以在没有对目标数据集进行微调的情况下,获得非常有竞争力的识别精度。

此外,实验结果还表明,在使用Pr-VIPE的情况下,仅使用索引集中单个视图的视频,就可以获得相对准确的结果。

图:和其他方法相比,Pr-VIPE的效果明显更好

总体来说,与现有的将2D姿态关键点直接映射到3D姿态关键点的模型相比,Pr-VIPE嵌入空间具有以下特点:

(1)视图不变

(2)使用了捕捉2D输入模糊度的概率

(3)在训练或推理时不需要相机参数

使用实验室内设置数据进行训练后,在2D姿态估计器(如PersonLab、BlazePose等)足够好的情况下,该模型可以在任何其他实际场景中工作。

该模型简单,嵌入紧凑,使用15个cpu可以在1天的时间内完成训练。

最后,Google已经在GitHub上发布了代码:

Git地址:https://github.com/google-research/google-research/tree/master/poem

参考链接:

https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ECCV 2020 | 基于分割一致性的单目自监督三维重建
本文主要从二维图像及其轮廓的集合中,学习一个自监督的、单视图的三维重建模型,预测目标物体的3D网格形状、纹理和相机位姿。提出的方法不需要3D监督、注释的关键点、物体的多视图或者一个先验的网格模板。关键之处在于,物体可以表示为可形变部分的集合,在同一类别的不同实例中,每个部分在语义上是一致的。
计算机视觉
2021/07/05
8980
基于深度学习的单目人体姿态估计方法综述(一)
原文:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods
计算机视觉
2021/03/16
1.8K0
深度 | 2017CV技术报告:从3D物体重建到人体姿态估计
选自The M Tank 机器之心编译 The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第三部分做了编译介绍,第一部分、第二部分和第四部分详见《计算机视觉这一年:这是最全的一份 CV 技术报告 》、《深度 | 2017 CV 技术报告之图像分割、超分辨率和动作识别 》、《计算机视觉这一年:2017 CV 技术报告 Pl
机器之心
2018/05/11
1.3K0
OnePose: 无CAD模型的one-shot物体姿态估计(CVPR 2022)
OnePose: One-Shot Object Pose Estimation without CAD Models
3D视觉工坊
2023/04/29
5510
OnePose: 无CAD模型的one-shot物体姿态估计(CVPR 2022)
3D鸟类重建—数据集、模型以及从单视图恢复形状
动物姿态的自动捕捉正在改变研究神经科学和社会行为的方式。运动携带着重要的社会线索,但是现有的方法不能很好地估计动物的姿态和形状,特别是鸟类,会受到环境中的物体遮挡。为了解决这个问题,作者首先引入了一种模型和多视图优化方法,来捕捉鸟类独特的形状和姿势空间。然后介绍了一种用于从单视图准确恢复鸟类姿势的方法,还包括鸟类的关键点、mask和外形。最后提供了一个包含大量多视图关键点和mask注释的鸟类数据集,可以从上面的项目链接中找到。
3D视觉工坊
2021/01/26
1.4K0
3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控
目前用于人类生成相关的「可动画3D感知GAN」方法主要集中在头部或全身的生成,不过仅有头部的视频在真实生活中并不常见,全身生成任务通常不会控制人物的面部表情,并且很难提高生成质量。
新智元
2023/09/22
7180
3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控
精选CVPR开源项目学习资源汇总
关于更多机器学习、人工智能、增强现实、Unity、Unreal资源和技术干货,可以关注公众号:AIRX社区
三次方AIRX
2020/12/14
8800
最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代
A Survey on Deep Learning for Localization and Mapping Towards the Age of Spatial Machine Intelligence
用户1150922
2020/09/11
2.5K0
最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代
南大清华发布《从单目图像中恢复三维人体网格》综述论文,涵盖246篇文献全面阐述单目3D人体网格恢复研究进展
---- 新智元报道   来源:专知 【新智元导读】来自南京大学和清华大学的最新研究论文《从单目图像中恢复三维人体网格》,提出了从而二维数据提升至三维网格过程中基于优化和基于回归的两种范式,第一次关注单目3D人体网格恢复任务的研究,并讨论了有待解决的问题和未来的发展方向。 从单目图像中估计人体的姿势和形状是计算机视觉领域中一个长期存在的问题。自统计学人体模型发布以来,三维人体网格恢复一直受到广泛关注。 为了获得有序的、符合物理规律的网格数据而开发了两种范式,以克服从二维到三维提升过程中的挑战:i)基于
新智元
2022/03/29
1K0
3D姿态估计|时序卷积+半监督训练
在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。
3D视觉工坊
2020/12/11
1K0
3D姿态估计|时序卷积+半监督训练
快速单目三维人手和身体的运动捕捉回归与整合
人体动作的本质细微差别往往是通过肢体动作和手势的结合来传达的,但现有的单目动作捕捉方法大多侧重于身体动作捕捉而忽略手的部分,或者只关注手的动作捕捉而不考虑身体动作。在本文中提出了FrankMocap运动捕捉系统,可以估计三维人手和身体运动。
AIWalker
2020/12/17
1.7K0
快速单目三维人手和身体的运动捕捉回归与整合
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。
新智元
2023/09/09
5940
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
基于少量图像的三维重建综述
基于少量图像的三维重建被认为是第三代人工智能的经典应用之一。在计算机图形学和计算机视觉领域,基于少量图像的三维重建任务因具有广泛的应用场景和很高的研究价值,长期以来吸引着众多学者的目光。引入深度学习方法后,该领域于近年来得到了长足发展。对此类基于少量图像的三维重建任务进行了全面阐述,并介绍了本研究组在该方面的系列工作,对其中涉及的数据类型进行分析,阐明其适用性和一般处理方法。此外,对常见的数据集进行分析、整理,针对不同重建方法,归纳出其基本框架、思路。最后,展示了一些常见三维重建的代表性实验结果,并提出了未来可能的研究方向。
一点人工一点智能
2023/08/25
1.3K0
基于少量图像的三维重建综述
基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021)
DeepPanoContext: 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021)
3D视觉工坊
2022/03/11
8400
基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021)
ECCV 2020 Spotlight 谷歌论文大盘点
本文继续盘点谷歌 Spotlight 中论文,看看工业界巨头都在关注什么方向,取得了哪些突破。该部分论文总计 12 篇,
CV君
2020/09/15
7200
机器人心灵感应:允许人类远程操作和训练机器人手
随着技术的发展,计算机科学家已经开发出越来越先进的技术来训练和操作机器人。总的来说,这些方法可以在越来越广泛的现实世界环境中促进机器人系统的集成。
脑机接口社区
2022/09/22
3370
机器人心灵感应:允许人类远程操作和训练机器人手
ICCV 2023 | 实现实时六自由度物体跟踪,深度主动轮廓模型DeepAC来了
本文介绍了一篇由国防科技大学刘煜教授团队和浙江大学 - 商汤联合实验室周晓巍教授团队联合撰写的论文《Deep Active Contours for Real-time 6-DoF Object Tracking》,该论文已被计算机视觉与人工智能顶尖国际会议 ICCV 2023 录用。仅需要提供 CAD 框架模型,就可以在多种光照条件和局部遮挡情况下实现对立体物体的实时跟踪。传统的基于优化的方法根据手工特征将物体 CAD 模型的投影与查询图像对齐来求解位姿,容易陷入局部最优解;最近的基于学习的方法使用深度网络来预测位姿,但其要么预测精度有限,要么需要提供 CAD 纹理模型。
机器之心
2023/10/24
1.4K0
ICCV 2023 | 实现实时六自由度物体跟踪,深度主动轮廓模型DeepAC来了
最新综述:深度学习图像三维重建最新方法及未来趋势
今天分享的是:深度学习领域基于图像的三维物体重建最新方法及未来趋势综述。原文:Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
小白学视觉
2022/09/28
7.7K0
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
机器之心专栏 机器之心编辑部 本文介绍了一篇由国防科技大学刘煜教授团队和浙江大学周晓巍教授团队联合撰写的论文《Long-term Visual Localization with Mobile Sensors》,该论文已被计算机视觉与模式识别领域顶尖国际会议 CVPR 2023 录用。 针对在时变的室外环境中难以视觉定位的问题,博士生颜深创新性地提出一种解决方案 SensLoc。SensLoc 利用移动设备内置的传感器数据,如 GPS、指南针和重力传感器,为视觉定位提供有效的初始位姿和约束条件,从而缩小图像
机器之心
2023/04/21
7070
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
每日学术速递2.10
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/12
1630
每日学术速递2.10
推荐阅读
相关推荐
ECCV 2020 | 基于分割一致性的单目自监督三维重建
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档