首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ECCV 2022 | VisDB:基于学习的密集人体鲁棒估计

从单目图像估计 3D 人体姿势和形状是动作重定向、虚拟化身和人类动作识别等各种应用的关键任务。这是一个具有根本挑战性的问题,因为深度模糊和人类外表的复杂性会随着关节、衣服、照明、视角和遮挡而变化。为了通过紧凑的参数表示复杂的 3D 人体,诸如 SMPL 之类的基于模型的方法已在社区中得到广泛使用。然而,SMPL 参数以整体方式表示人体,导致通过直接它们的参数无法灵活适应真实世界图像。更重要的是,当人体在图像中不完全可见时,基于回归的方法往往会失败,例如,被遮挡或在框架外。在这项工作中,作者的目标是学习与输入图像并且对部分身体情况具有鲁棒性的人体估计。

02

南开提出 Range-View | 激光雷达技术新进展在自动驾驶等多任务中的应用

激光雷达测距传感器在安全关键型应用中(例如,自动驾驶中的目标检测和全景分割)发挥着至关重要的作用,它可以在不考虑光照条件的情况下提供精确的3D环境测量。然而,激光雷达点云本质上是非均匀的、无序的且稀疏的,这禁止了高度优化算子(如卷积)的直接应用。解决此问题的一种方法是在点云中首先建立一个邻域结构,通过昂贵的半径搜索或最近邻搜索,然后在局部邻域中应用性能卷积算子[5, 23, 27, 36]。另一种方法是通过对输入点进行量化创建规则的 Voxel 栅格[8, 35, 41, 42, 43]或 Voxel 柱[15, 16, 26, 39, 43],这不可避免地会导致信息丢失。尽管这些算法取得了巨大成功,但利用点集和 Voxel 栅格的算法通常需要繁重的计算,这给在实时自主系统中扩展它们带来了挑战。相比之下,距离图像以无损的方式将3D数据组织成结构化的2D视觉表示。因此,距离图像无疑是所有激光雷达点云数据表示中最为紧凑和高效的。

01

最新SOTA!隐式学习场景几何信息进行全局定位

全局视觉定位是指利用单张图像,根据已有的地图,估计相机的绝对姿态(位置和方向)。这种技术可以应用于机器人和增强/虚拟现实等领域。这篇文章的主要贡献是提出了一种利用姿态标签来学习场景的三维几何信息,并利用几何信息来估计相机姿态的方法。具体来说,作者设计了一个学习模型,它可以从图像中预测两种三维几何表示(X, Y, Z坐标),一种是相机坐标系下的,另一种是全局坐标系下的。然后,通过将这两种表示进行刚性对齐,就可以得到与姿态标签匹配的姿态估计。这种方法还可以引入额外的学习约束,比如最小化两种三维表示之间的对齐误差,以及全局三维表示和图像像素之间的重投影误差,从而提高定位精度。在推理阶段,模型可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。作者在三个常用的视觉定位数据集上进行了实验,进行了消融分析,并证明了他们的方法在所有数据集上都超过了现有的回归方法的姿态精度,并且可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。

02

既可生成点云又可生成网格的超网络方法 ICML

本文发表在 ICML 2020 中,题目是Hypernetwork approach to generating point clouds。利用超网络(hypernetworks)提出了一种新颖的生成 3D 点云的方法。与现有仅学习3D对象的表示形式方法相反,我们的方法可以同时找到对象及其 3D 表面的表示。我们 HyperCloud 方法主要的的想法是建立一个超网络,返回特定(目标)网络的权重,目标网络将均匀的单位球上的点映射到 3D 形状上。因此,特定的 3D 形状可以从假定的先验分布中通过逐点采样来生成,并用目标网络转换。因为超网络基于自动编码器,被训练来重建3D 形状,目标网络的权重可以视为 3D 表面的参数化形状,而不像其他的方法返回点云的标准表示。所提出的架构允许以生成的方式找到基于网格的 3D 对象表示。

03

用于类别级物体6D姿态和尺寸估计的标准化物体坐标空间

本文的目的是估计RGB-D图像中未见过的对象实例的6D姿态和尺寸。与“实例级”6D姿态估计任务相反,我们的问题假设在训练或测试期间没有可用的精确对象CAD模型。为了处理给定类别中不同且未见过的对象实例,我们引入了标准化对象坐标空间(NOCS)-类别中所有可能对象实例的共享规范表示。然后,我们训练了基于区域的神经网络,可以直接从观察到的像素向对应的共享对象表示(NOCS)推断对应的信息,以及其他对象信息,例如类标签和实例蒙版。可以将这些预测与深度图结合起来,共同估算杂乱场景中多个对象的6D姿态和尺寸。为了训练我们的网络,我们提出了一种新的上下文感知技术,以生成大量完全标注的混合现实数据。为了进一步改善我们的模型并评估其在真实数据上的性能,我们还提供了具有大型环境和实例变化的真实数据集。大量实验表明,所提出的方法能够稳健地估计实际环境中未见过的对象实例的姿态和大小,同时还能在标准6D姿态估计基准上实现最新的性能。

03

Python 实现三维姿态估计遮挡匹配预测

引言:随着计算机技术的飞速发展以及人们对智能化设备需求的提高,人体行为识别已经成为计算机视觉领域热门研究方向之一,其广泛应用于公共安防、人机交互、虚拟现实、体育运动和医疗健康等领域,具有极高的理论研究价值。早期的方法主要针对于 RGB 视频图像,由于易受复杂背景、光照强度的影响,很难达到理想效果。但随着深度传感器技术的发展,高精度获取三维骨架关节点信息变得方便可行。对比传统 RGB 视频图像数据,骨架姿势信息对行为的描述有其内在优势,它不仅能够更准确地描述人体姿态和运动状态而且不受背景复杂度及光照强度等因素的影响,同时骨架信息也可以被广泛应用于行为识别。

01
领券