首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

作者头像
CV君
发布于 2024-01-23 11:13:50
发布于 2024-01-23 11:13:50
8420
举报

关注公众号,发现CV技术之美

本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。

详细信息如下:

  • 单位:西北工业大学光电与智能研究院iOPEN、慕尼黑工业大学
  • 论文链接:https://arxiv.org/abs/2312.08022
  • 项目链接:https://github.com/ZhanYang-nwpu/Mono3DVG

图1 :(b) Visual Grounding在2D场景中已经取得了重大进展,但是这些方法无法捕捉到被指代对象的真实3D范围。(d) 3DVG需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。(c) 单目三维目标检测可以获取场景中所有物体的三维坐标,且仅需要RGB图像。该方法成本低、适用性强,但它忽略了对三维空间中对象语义的理解,无法基于语言定位特定的目标。(a) 该工作提出了一种通过带有模糊的几何信息和外观信息的自然语言描述,直接在单个RGB图像中定位被指代对象的真实3D范围,称为Mono3DVG。

动机

对于智能系统和机器人而言,基于自然语言来理解真实3D场景中的物体是人机交互的一项重要能力。然而,现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。3D Visual Grounding又需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。单目3D目标检测成本低、适用性强,但无法定位特定目标。本文提出一种新的任务,用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。

数据集

为解决Mono3DVG任务,本文创建了Mono3DRefer数据集。这是第一个在VG任务中利用ChatGPT生成自然语言描述的数据集。数据收集pipeline如下图:

本文梳理了3DVG领域中相关的数据集信息,整理如下:

方法

为了利用具有外观和几何空间信息的自然语言进行推理,本文提出一种新的基于transformer的端到端方法,即Mono3DVG-TR。具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

首先,采用RoBERTa和ResNet-50提取文本和多尺度视觉特征;并利用深度预测器显式地学习几何空间特征。其次,为了细化指代对象的多尺度视觉特征和几何空间特征,本文提出一种双文本引导适配器来;它可以进行基于像素注意力的文本引导特征学习,根据文本特征细化视觉特征和几何空间特征。接下来,可学习的query令牌首先聚合几何空间特征,然后通过文本嵌入增强文本相关的几何空间特征,最后从多尺度视觉特征中收集外观信息。

通过堆叠深度-文本-视觉注意力将对象级的几何线索和视觉外观融合到query令牌中,充分实现文本引导的解码。最终将query令牌输入到多个MLP中预测目标的3D空间坐标。

实验结果

数据集整体的结果如下所示:

为了深入研究该任务的挑战,本文按照目标的距离远近程度和检测困难度划分了“近-中-远”和“易-中-难”两组子集,实验结果如下:

可视化结果如下:

针对Mono3DVG-TR方法中不同模块的可视化结果:

经过研究发现,在带有几何空间信息的Mono3DRefer数据集上训练的模型,可以直接在不带有几何空间信息的传统自然语言描述情况下使用,大大提高了该任务的适用性。详细结果见原文附件。

总结

我们相信Mono3DVG可以广泛应用,因为它不需要严格的设备条件,如RGB-D传感器,激光雷达或工业相机。可部署的应用场景广泛,比如无人机、监控系统、智能汽车、机器人等配备摄像头的设备。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
突破闭集限制:3D-MOOD 实现开集单目 3D 检测新 SOTA
单目 3D 目标检测是计算机视觉领域的热门研究方向,但如何在真实复杂场景中识别“未见过”的物体,一直是个难题。本文介绍的 3D-MOOD 框架,首次提出端到端的开集单目 3D 检测方案,并在多个数据集上刷新了 SOTA。
CoovallyAIHub
2025/09/03
1400
突破闭集限制:3D-MOOD 实现开集单目 3D 检测新 SOTA
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
光学传感器外方位估计以及同时重建三维(3D)环境的问题在计算机视觉领域中通常被称为SfM(Structure from Motion),在机器人学中被称为SLAM(Simultaneous Localisation and Mapping)[1]。
AIGC 先锋科技
2024/07/08
3K0
​SLAM  |   融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
一文详解SLAM的主要任务和开源框架
SLAM是Simultaneous localization and mapping缩写,意为“同步定位与建图”.
3D视觉工坊
2021/04/13
3.1K0
一文详解SLAM的主要任务和开源框架
两万字 | 视觉SLAM研究综述与未来趋势讨论
摘要:近年来,基于视觉传感器在同时定位与地图构建(SLAM)系统中展示出了显著的性能、准确性和效率。在这里,视觉同时定位与地图构建(VSLAM)方法是指使用相机进行姿态估计和地图生成的SLAM方法。
一点人工一点智能
2022/12/25
1.7K0
两万字 | 视觉SLAM研究综述与未来趋势讨论
丰田研究院:自监督单目图像深度估计再改进,数据和代码已开源
上一篇文章,我们讨论了深度神经网络如何从一张图像中预测深度。特别是,我们证明了这个问题可以自监督只使用视频和几何约束。这种方法高度可扩展,甚至可以工作在未校准的摄像头或自动驾驶常见的多摄像头装备。
McGL
2021/07/07
1.4K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
3D目标检测是自动驾驶车辆(AV)感知堆栈的至关重要组成部分。为了促进3D感知研究,AV行业已经发布了许多大规模的多模态数据集。然而,尽管在检测常见类别(如汽车和公交车)方面取得了显著改进,最先进的检测器在罕见类别(如_stromler_和_debris_)上的表现仍然不佳,这可能会影响下游规划,从而催生了_长尾3D检测_(LT3D)的研究。
集智书童公众号
2023/12/26
2.1K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.2K0
从2D到3D的目标检测综述
高鲁棒!高实时!慕尼黑工业大学开源RGB-L SLAM!
众所周知,ORB-SLAM3具有单目、双目、RGB-D以及相应的惯性模式,其内部的数据关联极大的提高了定位建图精度。但在自动驾驶环境中,ORB-SLAM3却出现了不同程度的问题。对于单目模式来说,由于尺度模糊性,ORB-SLAM3很难建立真实尺度大小。如果想要利用RGB-D相机来采集深度图的话,由于室外环境的深度值都很大,导致采集的精度非常差。对双目模式来说,由于所估计的深度值远大于基线长度,因此深度值估计的也非常不准。
3D视觉工坊
2023/04/29
5560
高鲁棒!高实时!慕尼黑工业大学开源RGB-L SLAM!
自动驾驶中图像与点云融合的深度学习研究进展综述
文章:Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review
3D视觉工坊
2020/11/11
3.7K0
自动驾驶中图像与点云融合的深度学习研究进展综述
结构化PLP-SLAM:单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案
文章:Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras
点云PCL博主
2022/09/13
9440
结构化PLP-SLAM:单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
AIGC 先锋科技
2024/07/31
2600
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
OpenAnnotate3D:一个目标取代人类的标注工具
文章:OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data
点云PCL博主
2023/11/03
1.5K0
OpenAnnotate3D:一个目标取代人类的标注工具
SLAM 深度估计 三维重建 标定 传感器融合
经常有粉丝问视觉/激光/SLAM、三维重建等方向的学习路线,这里我再总结给大家,如下所示:
用户1150922
2022/05/10
1.4K0
SLAM 深度估计 三维重建 标定 传感器融合
基于深度学习的单目深度估计综述
文章:Monocular Depth Estimation Based On Deep Learning: An Overview
3D视觉工坊
2020/12/11
2.8K0
基于深度学习的单目深度估计综述
从数据集到2D和3D方法,一文概览目标检测领域进展
目标检测任务的目标是找到图像中的所有感兴趣区域,并确定这些区域的位置和类别。由于目标具有许多不同的外观、形状和姿态,再加上光线、遮挡和成像过程中其它因素的干扰,目标检测一直以来都是计算机视觉领域中一大挑战性难题。
机器之心
2020/11/13
1.1K0
从数据集到2D和3D方法,一文概览目标检测领域进展
南开大学和国科大联合提出DFormer | 全新预训练框架,适用各类RGB-D下游任务
作者在预训练的DFormer的尾部加上轻量级解码器后进行微调,用于两个流行的RGB-D任务,即RGB-D语义分割和RGB-D显著性检测。实验结果表明,DFormer在两个RGB-D语义分割和五个RGB-D显著对象检测数据集上取得了新的最先进性能,且计算成本不到当前最佳方法的一半。 论文链接:2309.09668.pdf (arxiv.org) 代码链接:https://github.com/VCIP-RGBD/DFormer
集智书童公众号
2023/10/12
1.5K0
南开大学和国科大联合提出DFormer | 全新预训练框架,适用各类RGB-D下游任务
关于单目 3D 检测最新成果,你想知道的都在这啦!
虽然基于点云的 3D 目标检测方法性能不断提升,但是激光雷达相对高昂的造价和对各种复杂天气情况的敏感性推动着研究人员开始更多地探索基于视觉的 3D 目标检测,其在近几年成为越来越热门的研究方向。
OpenMMLab 官方账号
2022/01/18
1.9K0
关于单目 3D 检测最新成果,你想知道的都在这啦!
利用消失点的单目3D语义占用预测:VPOcc
文章:VPOcc: Exploiting Vanishing Point for Monocular 3D Semantic Occupancy Prediction
点云PCL博主
2024/12/19
2280
利用消失点的单目3D语义占用预测:VPOcc
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
8000
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
7690
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
推荐阅读
突破闭集限制:3D-MOOD 实现开集单目 3D 检测新 SOTA
1400
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
3K0
一文详解SLAM的主要任务和开源框架
3.1K0
两万字 | 视觉SLAM研究综述与未来趋势讨论
1.7K0
丰田研究院:自监督单目图像深度估计再改进,数据和代码已开源
1.4K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
2.1K0
从2D到3D的目标检测综述
2.2K0
高鲁棒!高实时!慕尼黑工业大学开源RGB-L SLAM!
5560
自动驾驶中图像与点云融合的深度学习研究进展综述
3.7K0
结构化PLP-SLAM:单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案
9440
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
2600
OpenAnnotate3D:一个目标取代人类的标注工具
1.5K0
SLAM 深度估计 三维重建 标定 传感器融合
1.4K0
基于深度学习的单目深度估计综述
2.8K0
从数据集到2D和3D方法,一文概览目标检测领域进展
1.1K0
南开大学和国科大联合提出DFormer | 全新预训练框架,适用各类RGB-D下游任务
1.5K0
关于单目 3D 检测最新成果,你想知道的都在这啦!
1.9K0
利用消失点的单目3D语义占用预测:VPOcc
2280
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
8000
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
7690
相关推荐
突破闭集限制:3D-MOOD 实现开集单目 3D 检测新 SOTA
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档