首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >se(3)-TrackNet: 数据驱动的动态6D物体姿态跟踪, 基于合成域的图片残差校准

se(3)-TrackNet: 数据驱动的动态6D物体姿态跟踪, 基于合成域的图片残差校准

作者头像
3D视觉工坊
发布2021-01-13 10:58:59
发布2021-01-13 10:58:59
1K0
举报

标题:se(3)-TrackNet: Data-driven 6D Pose Trackingby Calibrating Image Residuals in Synthetic Domains

作者: Bowen Wen, Chaitanya Mitash, Baozhang Ren, Kostas E. Bekris

机构:Rutgers University

来源:IROS 2020

编译 : Billy 泡泡机器人SLAM

审核:管培育

摘要

大家好,今天为大家带来的文章是 se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains

6D物体姿态跟踪对机器人抓取和操纵非常重要, 而又充满挑战(1)严重的遮挡经常发生; (2)视频中groundtruth的6D姿态人工标注十分困难; (3)长期跟踪对鲁棒性要求很高, 否则容易漂移和丢失。本文提出了数据驱动的端到端神经网络。一个重要的贡献是巧妙的解耦特征编码使虚拟域和真实域分开, 帮助减小域之间的鸿沟。同时旋转成分的李代数表示让训练更加高效紧凑。即使整个框架只在合成数据集上训练,也能在真实世界取得良好的效果,并且超过以前的方法,包括那些需要用真实数据训练的方法。在YCB-Video和一个全新的基准上,大量实验表明了算法的优越性。此外,该方法还非常快速,达到90Hz。

Arxiv: https://arxiv.org/pdf/2007.13866.pdf

代码和数据集: https://github.com/wenbowen123/iros20-6d-pose-tracking

视频: https://www.youtube.com/watch?v=dhqM0hZmGR4

背景与贡献

本文有以下贡献:

1. 提出了一个全新的端到端神经网络, 其中巧妙的特征编码解耦使得sim-to-real迁移更加有效

2. 姿态旋转成分的李代数表示和为之设计的损失函数, 使得训练更加高效。

3. 一个合成数据生成的流程,在模拟器中就能生成大量天然标注好的数据集, 极大减少了人工标注的成本。

4. 一个全新的数据集。采集了多种不同机器人操纵YCB物体场景中物体相对于静止相机动态运动的视频。每一帧的6D物体姿态已被标注用于评估方法。

算法流程

1.整体结构

输入是一连串RGBD的视频, 物体的CAD模型, 和第一帧的初始物体6D姿态。本框架输出视频中每一帧物体的6D姿态。

2. 方法

2.1 网络结构设计

网络的输入有两个分支, 上半部分是用前一帧的物体姿态渲染出的RGBD图片。下半部分是当前从相机中得到的RGBD图片(训练过程中, 这一部分是在模拟器合成的虚拟数据)。相比于把两帧RGBD串联并共享同一个编码器, 这种解耦方式使域鸿沟只存在于第二个分支。对第一个分支来说, 训练和测试阶段的输入在同一个域不受影响。

2.2 基于域随机和满足物理规律的合成训练数据生成

本文设计的网络只需要在模拟器中生成的合成数据集训练, 不需要任何人工标注。数据集的生成用到了域随机, 同时满足物理规律: 高仿真度的碰撞和物理模拟。

主要结果

尽管本文提出的方法只需要合成数据训练, 在两个公开真实数据集上的评估结果却远远超过以往的方法。并且比较的方法中包括那些需要用到已标注的真实数据集训练的方法。

由于YCB-Video数据集中物体是静止放置在桌上, 通过移动相机得到的相对运动。一些快速的物体运动和翻转运动在这种场景下不容易得到。同时物体的姿态还可能通过基于整张图片定位得到的相机运动推测出来(如SLAM)。所以并不适合全面地评估动态物体6D姿态跟踪的方法。因此, 本文还提出了一个全新的YCBInEOAT数据集, 采集了不同机器人操纵场景下动态物体相对于静止相机的运动, 包括多种YCB物体和不同的操纵任务和机械手。

相关资源

代码和数据集:

https://github.com/wenbowen123/iros20-6d-pose-tracking

视频:

https://www.youtube.com/watch?v=dhqM0hZmGR4

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档