前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >单目图像和稀疏雷达数据深度估计

单目图像和稀疏雷达数据深度估计

作者头像
3D视觉工坊
发布2020-11-19 16:47:18
发布2020-11-19 16:47:18
1.4K0
举报

标题:Depth Estimation from Monocular Images and Sparse Radar Data

作者: Juan-Ting Lin1, Dengxin Dai1, and Luc Van Gool1

机构:1Computer Vision Lab, ETH Zurich, Switzerland

来源:IROS 2020

编译 : 万应才

审核:wyc

摘要

大家好,今天为大家带来的文章是IDA-3D:Depth Estimation from Monocular Images and Sparse Radar Data

在这篇论文中,我们探讨利用深度神经网路将单目影像与雷达点融合,以达到更精确的深度估计的可能性。本文从不同的角度对RGB图像与雷达测量数据的融合进行了全面的研究,并根据观测结果提出了一种可行的解决方案。我们发现,雷达测量中存在的噪声是阻碍现有的激光雷达数据与图像融合方法应用于雷达数据与图像融合的主要原因之一。实验是在nuScenes数据集上进行的,nuScenes数据集是第一批以相机、雷达和激光雷达在不同场景和天气条件下的记录为特征的数据集之一。大量实验表明,该方法优于现有的融合方法。我们还提供了详细的消融研究,以显示我们的方法中每个组成部分的有效性。

背景与贡献

雷达和激光雷达

与激光雷达相比,雷达作为一种汽车级传感器已经在汽车上应用了几十年,但在基于深度学习的汽车自动驾驶研究中却没有引起足够的重视。一个原因可能是雷达测量不包括在大多数主要的自驱动数据集中[10]。与激光雷达相比,雷达传感器具有更长的探测距离(200米~300米),更多的属性包括速度、动态和测量不确定性。最重要的是,这些传感器的成本比激光雷达低得多。然而,雷达测量通常是稀疏的,噪声较大的,并且垂直视场也比较有限。本研究旨在探讨利用雷达资料进行密集深度估计所面临的挑战,并提出一种新的方法。

我们作出以下贡献:

1)详细研究了使用雷达数据进行密集深度估计所面临的挑战;2)提出一种新颖的、精心设计的基于单眼图像和稀疏雷达数据的深度估计网络体系结构;数据和代码将在论文被接受后发布,以便于该方向的研究。

算法流程

1.Radar data

目前还没有关于RGB+雷达深度估计任务的研究工作。因此,s首先将简要介绍任务的制定以及雷达和激光雷达测量之间的一些关键区别,这将有助于读者理解我们方法的组成部分背后的原理。

Data format:与激光雷达数据类似,雷达测量数据被记录为稀疏点云。主要区别在于,除了x、y、z和反射率外,雷达数据还包括附加测量值,包括沿x和y方向的速度、位置和速度测量值的标准偏差,以及诸如被测对象动态状态(编码为离散数字)的信息。

局限性:虽然雷达数据似乎提供了更多信息,但与激光雷达数据相比,它还受到以下限制:

•稀疏性:在nuScenes数据集[11]中,投影到相机后有超过3000个激光雷达点。但是,投影后的雷达点不足100个(第IV-A节)。

•有限的垂直视野:由于传感器的限制,雷达测量主要集中在中央水平仓(类似高度),如图2(右)所示。

•噪声测量:由于多重反射(雷达多径问题)或其他原因,我们有许多噪声测量,如图2(左)所示。

•与激光雷达数据不一致:除了噪声测量(视为异常值)外,代表同一物体的雷达和激光雷达的三维点也可能不同。由于我们通常使用激光雷达测量作为地面真实情况[10],即使是无噪声雷达测量也不完美。

图1 整体结构

2. 方法

在我们的RGB+雷达公式中,来自数据集的每个数据样本包含(1)一个RGB图像xRGB,(2)一组来自3个最近时间戳的雷达测量值R={rn}nn=1,以及(3)一组LiDAR测量值L={lm}M M=1。利用透视投影,雷达测量值R可以进一步投影到单通道二维深度图x雷达上。类似地,激光雷达测量可以投影到二维地图y上,在我们的实验中,它被视为地面真实深度图。我们的模型以xRGB和xRadar为输入,预测密集的二维深度图y∮,使测量误差最小化。与所有的深度估计/完成任务一样,损失和度量误差是在具有地面真实测量的像素上计算的。

2.1 CNN architecture

图2 编码器的融合方法:(a)早期融合;(b)中期融合;(c)晚期融合;(d)多层融合。由于空间限制,我们没有按层显示细节。

我们使用了两个连续的三维卷积层,每个层之后是一个三维最大池化层,以学习和执行从成本量中对特征表示的向下采样。由于视差与深度成反比,且均表示物体的位置,我们将视差转换为深度表示后,形成成本体积。依靠网络正则化,最终将3D CNN下采样的特征合并为3D bo我们将不同的编码融合方法应用到Ma等人提出的简单的编解码结构中。[7] 比较他们的表现。,后期融合和多层融合模型的性能相当。因此,为了简单起见,我们在接下来的实验中采用延迟融合作为主要的编码器主干设计。x center的深度概率。将每个深度z按其归一化概率加权求和,最终得到三维盒中心的深度,如公式1所示,其中N为深度级别数,P (i)为归一化概率。

我们的整个方法包括两个阶段。stage1模型fstage1以RGB图像xRGB和雷达深度图xRadar为输入,预测粗略的深度图yNstage1,这为我们提供了场景的密集3D结构:

2.3 噪声过滤模块

本文没有设置固定的距离容差阈值τ,而是通过经验发现自适应阈值可以获得更好的结果。我们将阈值设计为深度值τ(d)的函数:我们对大深度值有更大的容忍度,这类似于Huan等人[2]的空间增加干扰(SID):

2.4 LOSS Function

主要结果

图3 示例视图。顶行是前视图,下排是后视图。最后一列是夜景。

图4 nuScenes[11]传感器数据可视化。左栏包含激光雷达结果,右栏包含雷达结果。我们使用大于1像素的点大小来获得更好的可视化效果。

图5 不同深度输入模式的比较

图6 白天和夜间:与仅限RGB车型(第一排)相比有改进。(顶部)白天。(底部)夜间。括号中的百分比表示与仅RGB模型(第一行)相比的相对改进。绿色代表进步,红色代表退化。

图 6定性结果。我们在RGB图像上叠加雷达点。从图中可以看出,我们的方法在白天和晚上都有较好的预测质量。在这里,我们的代表我们的完整模型(我们的两个tagew/smoothness)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档