单目深度估计的新 SOTA
论文: https://arxiv.org/pdf/2009.09934.pdf
代码: https://github.com/abhinavsagar/msnnff
单目图像的深度估计是计算机视觉中一个有挑战性的问题。在论文中,我们采用了一种新的网络结构,利用多尺度特征融合的方法来解决这个问题。我们的网络使用两个不同的块,第一个使用不同的滤波器大小的卷积并合并所有的单独特征图。第二个使用空洞卷积代替全连接层,从而减少计算并增加感受野。我们提出了一种新的损失函数来训练网络,该函数结合深度回归项、 SSIM 损失项和多项式逻辑损失项。我们在 Make 3D、 NYU Depth V2 和 Kitti 数据集上训练网络,并使用标准评估指标进行测试,这些指标包括 RMSE 损失和 SILog 损失。我们的网络超过了之前最先进的方法,同时参数更少。
基于神经网络的深度学习已经成功地解决了计算机视觉领域的一系列问题。使自动驾驶成为现实需要解决感知问题。其中涉及到很多子任务,如目标检测、实例分割、深度估计、场景理解等。神经网络试图模仿人类大脑通过数据学习而不需要明确编程。在这个工作中,我们尝试解决深度估计问题,特别是在自动驾驶的背景下。
深度估计是计算机视觉中一个重要而又复杂的问题。这需要学习一个从输入图像计算深度图的函数。人类天生就有这种能力,因为他们的大脑能够通过利用光照、阴影、透视和不同大小物体的存在等信息来理解场景。对于人类来说,从一张图片推断物体的距离是相当容易的,然而这项任务对于计算机来说相当具有挑战性。
传统上立体摄像头被用在基于深度图的 SLAM 系统中。然而使用单目摄像头有低功耗、轻便和便宜的优点。因此似乎是一种更好的选择。历史上,深度估计主要是使用立体摄像头解决。最近流行使用一系列卷积网络结构, 从单张图像或单目摄像头来解决深度估计问题。该问题被归结为回归问题,采用 log 空间中的 MSE 作为损失函数。
以下数据集用于训练和测试我们的网络:
数据增强是通过对数据集的样本单独执行操作手动增加数据集大小的过程。这使得网络具有更好的泛化能力,从而避免过拟合。数据增强已成功地用于深度估计。通过数据增强,训练数据增加了:
任务是学习从一个彩色图像到相应的深度图的一个直接映射。我们的网络融合了对深度估计很重要的多尺度深度特征。我们的网络移除了所有增加大量的计算开销的全连接层。虽然全连接层在推理大范围的上下文信息中很重要,但是它仍然是不需要的。相反,我们使用空洞卷积,扩大了感受野,而不增加参数的数量。
该网络以一幅图像为输入,使用经过预训练的 ResNet 主干网进行特征提取。多尺度卷积分别采用1×1卷积、3×3卷积、5×5卷积和7×7卷积的组合。执行实例级的 concat 操作以合并特征图。这个多尺度块重复了4次。我们网络的感受野由于这一操作而大大增加,除了局部信息外,还能够捕捉到全局背景信息。
融合后的特征被传播到另一个多尺度块中。该块由普通卷积层和扩张率分别为2和4的空洞卷积层组成。这个块也要重复4次,并且使用实例级的 concat 操作来合并特征图。这项工作中使用的网络结构如图1所示:
图1: 此工作中使用的网络结构
高层的神经元在卷积神经网络有更大的感受野。虽然低层神经元的感受野较小,但它包含了更多细节的信息。因此,为了得到更好的结果,我们将不同尺度的特征图结合起来。我们使用 concat 操作符连接高层和中层特征图。通过创建一个额外的信息流通路径,Skip 连接也有助于多尺度融合操作。
ResNet 主干网被用作特征提取器,在 Imagenet 数据集上进行了训练。在所有的实验中,ADAM 优化器的学习率值为0.0001,动量参数值为0.9,权重衰减值为0.0004,批大小设置为8。该网络使用 SGD 在 NYU Depth v2 数据集上迭代 500K 次,在 Make3D 上迭代 100K次,在 Kitti 上迭代 300K 次。
在 NYU v2 数据集上,模型预测与 ground truth 深度图比较,如图2所示:
图2: NYU v2 数据集上估计深度图的定性比较。颜色表示深度(红色表示远,蓝色表示近)。第一行: RGB 图像,第二行: Ground Truth 深度图,第三行: 我们提出的方法的结果。
在 Kitti 数据集上,模型预测与 ground truth 深度图比较,如图3所示:
图3: 我们的网络对测试图像1的输出预测。第一行: 输入图像,第二行: ground truth 深度图,第三行: 模型预测深度图。颜色表示深度(红色表示远,蓝色表示近)。
在 Kitti 数据集测试图像5上,模型预测和 ground truth 深度图的比较,如图4所示:
图4: 我们的网络在测试图像5上的输出预测。第一行: 输入图像,第二行: ground truth 深度图,第三行: 模型预测深度图。颜色表示深度(红色表示远,蓝色表示近)。我们的网络无法检测到车前的人,也无法检测到左下角的人。
论文中提出了一种基于多尺度特征融合的单目深度估计网络结构。我们介绍了网络结构,训练细节,损失函数和使用的评估度量。我们使用数据集 Make 3D、 NYU Depth v 2 和 Kitti 来训练和测试我们的网络。我们的网络不仅在单目深度估计方面打败了以前最先进的方法,而且参数更少,适用于实时的应用。
References
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有