前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >综述:基于深度学习的物体姿态估计

综述:基于深度学习的物体姿态估计

原创
作者头像
一点人工一点智能
发布2024-05-16 13:28:32
3840
发布2024-05-16 13:28:32
举报
文章被收录于专栏:一点人工一点智能

01 论文介绍

本文综述了基于深度学习的物体姿态估计方法,内容涵盖了实例级、类别级和未见物体三种问题形式。主要内容包括:

· 介绍了用于评估物体姿态估计的三种类型方法(实例级、类别级和未见物体)的数据集和评价指标。

· 详细回顾了实例级方法,包括基于对应关系、基于模板匹配、基于投票和基于回归的方法,并对这些方法的特点、训练方式、推理模式等进行了讨论。

· 回顾了类别级方法,包括基于形状先验和基于形状先验自由的方法,并分析了这些方法的优势和局限性。

· 介绍了未见物体姿态估计方法,包括基于CAD模型和基于手动参考视图的方法,并讨论了这些方法在实际应用中的优势和挑战。

· 概述了物体姿态估计在机器人操纵、增强现实/虚拟现实、航空航天、人机交互和自动驾驶等领域的应用情况。

· 总结了当前物体姿态估计面临的主要挑战,并指出了未来研究的方向,包括无监督/自监督学习、移动设备部署、处理复杂物体和场景、提升泛化能力等。

本文内容全面系统,对当前基于深度学习的物体姿态估计研究进行了很好的综述,对于了解该领域的发展现状和未来趋势具有很好的参考价值。

更多详情,参考原文
更多详情,参考原文

02 DATASETS AND METRICS

本章首先介绍了主流的基于深度学习的对象姿态估计数据集,包括实例级、类别级和未见对象姿态估计方法。然后,综述了相关的评估指标。最后,详细介绍了基于对应、模板、投票和回归的方法。

2.1 数据集

介绍了用于评估物体姿态估计的三种类型方法(实例级、类别级和未见物体)的数据集和评价指标。

· 实例级方法的常用数据集,包括BOP Challenge数据集和其他数据集。BOP Challenge数据集包括Linemod Dataset、Linemod Occlusion Dataset、IC-MI/IC-BIN Dataset、RU-APC Dataset、YCB-Video Dataset、T-LESS Dataset、TYO-L/TUD-L Dataset、HB Dataset、HOPE Dataset、YCBInEOAT Dataset、ClearPose Dataset、MP6D Dataset等。其他数据集还包括YCBInEOAT Dataset、ClearPose Dataset、MP6D Dataset等。

· 类别级方法的常用数据集,包括刚性物体数据集和关节物体数据集。刚性物体数据集包括CAMERA25 Dataset、REAL275 Dataset、kPAM Dataset、TOD Dataset、Objectron Dataset、Wild6D Dataset、PhoCaL Dataset、HouseCat6D Dataset等。关节物体数据集包括BMVC Dataset、RBO Dataset、HOI4D Dataset、ReArtMix/ReArtVal Datasets、ContactArt Dataset等。

· 未见物体姿态估计方法的常用数据集,包括BOP Challenge数据集和一些手动参考视图方法的数据集。BOP Challenge数据集包括Linemod Dataset、Linemod Occlusion Dataset、IC-MI/IC-BIN Dataset、RU-APC Dataset、YCB-Video Dataset、T-LESS Dataset、TYO-L/TUD-L Dataset、HB Dataset、HOPE Dataset、YCBInEOAT Dataset、ClearPose Dataset、MP6D Dataset等。手动参考视图方法的数据集包括MOPED Dataset、GenMOP Dataset、OnePose Dataset、OnePose-LowTexture Dataset等。

2.2 常用评价指标

评估物体姿态估计常用的评价指标:包括3DoF、6DoF、9DoF和其他评价指标。3DoF评价指标包括角度误差和3D旋转估计准确度。6DoF评价指标包括BOP-M、ADD、ADD-S、AUC、n • mcm、2D投影距离等。9DoF评价指标包括IoU 3D。其他评价指标包括Chamfer Distance、5 • 5cm等。

2.3 基于对应、模板、投票和回归的方法

训练领域包括源领域、领域适应和领域泛化。推理模式包括直接推理和基于模板匹配的推理。应用领域包括机器人操作、增强现实/虚拟现实、航空航天、人机交互和自动驾驶等。评价指标包括BOP-M、ADD、ADD-S、AUC、n • mcm、2D投影距离、IoU 3D、Chamfer Distance、5 • 5cm等。基准数据集包括Linemod Dataset、Linemod Occlusion Dataset、IC-MI/IC-BIN Dataset、RU-APC Dataset、YCB-Video Dataset、T-LESS Dataset、TYO-L/TUD-L Dataset、HB Dataset、HOPE Dataset、YCBInEOAT Dataset、ClearPose Dataset、MP6D Dataset、CAMERA25 Dataset、REAL275 Dataset、kPAM Dataset、TOD Dataset、Objectron Dataset、Wild6D Dataset、PhoCaL Dataset、HouseCat6D Dataset、MOPED Dataset、GenMOP Dataset、OnePose Dataset、OnePose-LowTexture Dataset等。

03 CATEGORY-LEVEL OBJECT POSE ESTIMATION

本章节首先介绍了基于形状先验的方法,分为NOCS形状对齐方法和直接回归姿态方法,然后介绍了无形状先验的方法,包括基于深度引导的几何感知方法、RGBD引导的语义和几何融合方法和其他方法。总体而言,基于形状先验的方法在处理形状变化大的物体时效果更好,但需要构建和训练形状先验,无形状先验的方法则具有更好的泛化能力,但限制于同一类别未见过的物体。

3.1 基于对应关系的物体姿态估计方法

这些方法通过在输入数据(图像或点云)和给定的完整物体CAD模型之间建立对应关系来估计物体的姿态。根据对应关系的类型,这些方法可以分为稀疏对应方法和密集对应方法。稀疏对应方法通过检测图像中的关键点或点云中的关键点来建立2D-3D或3D-3D对应关系,然后使用PnP算法或最小二乘法来估计物体的姿态。而密集对应方法则试图建立更多的对应关系,以实现更精确的姿态估计。

3.2 介绍了基于模板的物体姿态估计方法

这些方法利用图像的全局信息来处理无纹理物体。基于模板的方法可以分为基于RGB图像的模板方法和基于点云的模板方法。基于RGB图像的模板方法涉及从物体CAD模型中提取2D投影,然后将其作为模板与查询图像进行匹配,从而估计物体的姿态。而基于点云的模板方法则直接使用物体的CAD模型作为模板,与查询点云进行匹配。

3.3 基于投票的物体姿态估计方法

这些方法通过像素级或点级投票方案来确定物体的姿态。根据投票方式的不同,这些方法可以分为间接投票方法和直接投票方法。间接投票方法首先预测图像中的关键点或点云中的关键点,然后通过2D-3D或3D-3D关键点对应关系来估计物体的姿态。直接投票方法则直接预测每个像素或点的姿态和置信度,然后选择置信度最高的姿态作为物体的最终姿态。

3.4 基于回归的物体姿态估计方法

这些方法旨在直接从学习到的特征中恢复物体的姿态。根据使用的信息的不同,这些方法可以分为几何引导回归方法和直接回归方法。几何引导回归方法利用RGBD图像的几何信息来辅助物体姿态估计,而直接回归方法则直接从RGBD图像中回归物体的姿态。

04 UNSEEN OBJECT POSE ESTIMATION

本章节主要介绍了基于深度学习的未见物体姿态估计方法,分为基于CAD模型的方法和基于手工参考视角的方法,前者利用CAD模型先验知识,后者利用手工标注的参考视角。具体方法包括特征匹配和模板匹配,前者需要提取通用特征并建立强对应关系,后者利用模板检索和优化姿态。这些方法都面临准确性和效率的挑战,并且需要大量的模板数据和预训练模型。

4.1 基于形状先验的物体姿态估计方法

这些方法首先在离线模式下学习一组内类已见物体的CAD模型以获得形状先验,然后利用这些3D几何先验信息来指导内类未见物体的姿态估计。该节将基于形状先验的方法分为两个类别:基于NOCS形状对齐的方法和直接回归姿态的方法。基于NOCS形状对齐的方法首先预测物体的NOCS形状/映射,然后使用非可微的姿势解决方案方法(如Umeyama算法)将物体点云与预测的NOCS形状/映射对齐以获得物体姿态。直接回归姿态的方法则直接从特征级别回归物体姿态,使得姿态获取过程可微分。

4.2 基于形状先验自由的方法

这些方法不依赖于形状先验,因此具有更好的泛化能力。这些方法可以分为三个主要类别:基于深度引导的几何感知方法、基于RGBD引导的语义和几何融合方法和其它方法。基于深度引导的几何感知方法利用3D图卷积网络和点云信息来提取与姿态相关的几何特征。基于RGBD引导的语义和几何融合方法通过融合2D语义信息和3D几何信息来回归物体姿态。其他方法包括使用神经合成模块、单目图像估计、零样本方法等。这些方法都试图通过不同的途径来提高物体的姿态估计性能,并减少对真实世界标注数据的依赖。

总结来说,4.1节和4.2节分别介绍了基于形状先验的物体姿态估计方法和基于形状先验自由的方法。基于形状先验的方法通过学习形状先验来提高估计性能,但需要大量的CAD模型和训练数据。而基于形状先验自由的方法通过不同的策略来提高泛化能力和减少对标注数据的依赖,为物体姿态估计提供了更多的可能性。

05 应用

本章讨论了对象姿态估计技术在机器人操纵、增强现实/虚拟现实、航空航天、手与物体交互和自动驾驶等领域的应用发展。这些应用分为实例级、类别级和未见物体。实例级操纵中,合成数据用于训练以改善适应性;类别级操纵关注姿态估计在机器人抓取中的应用;未见物体操纵则探索了零样本对象姿态估计。增强现实/虚拟现实应用中,姿态估计使虚拟物体与现实世界精确叠加,而自动驾驶中用于感知周围环境。手与物体交互应用侧重于姿态估计网络和多模态数据。

06 结论与未来应用

论文介绍了最新的基于深度学习的物体姿态估计方法,比较了它们的优缺点,并探讨了应用。

尽管取得了一定的成功,但仍存在许多挑战。文章提出了几个有前景的未来研究方向,包括:

1)标签效率学习;

2)合成数据到现实世界的域适应和泛化方法;

3)应用方面,如移动设备和机器人上部署物体姿态估计方法;

4)处理复杂对象和场景;

5)问题表述方面,提高对未知物体姿态估计的泛化能力。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 论文介绍
  • 02 DATASETS AND METRICS
    • 2.1 数据集
      • 2.2 常用评价指标
        • 2.3 基于对应、模板、投票和回归的方法
        • 03 CATEGORY-LEVEL OBJECT POSE ESTIMATION
          • 3.1 基于对应关系的物体姿态估计方法
            • 3.2 介绍了基于模板的物体姿态估计方法
              • 3.3 基于投票的物体姿态估计方法
                • 3.4 基于回归的物体姿态估计方法
                • 04 UNSEEN OBJECT POSE ESTIMATION
                  • 4.1 基于形状先验的物体姿态估计方法
                    • 4.2 基于形状先验自由的方法
                    • 05 应用
                    • 06 结论与未来应用
                    相关产品与服务
                    腾讯云小微
                    腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档