Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用

CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用

作者头像
机器之心
发布于 2022-03-28 07:10:26
发布于 2022-03-28 07:10:26
6500
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:邓圣衡、梁智灏、孙林、贾奎

本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点,研究者提出限制学习的注意力权重的方差。将分类和回归任务解耦以处理不平衡训练问题。在 nuScenes 和 Waymo 数据集的基准测试证明了 VISTA 方法的有效性和泛化能力。该论文已被CVPR 2022接收。

第一章 简介

LiDAR (激光雷达)是一种重要的传感器,被广泛用于自动驾驶场景中,以提供物体的精确 3D 信息。因此,基于 LiDAR 的 3D 目标检测引起了广泛关注。许多 3D 目标检测算法通过将无序和不规则的点云进行体素化,随后利用卷积神经网络处理体素数据。然而,3D 卷积算子在计算上效率低下且容易消耗大量内存。为了缓解这些问题,一系列工作利用稀疏 3D 卷积网络作为 3D 骨干网络来提取特征。如图 1 所示,这些工作将 3D 特征图投影到鸟瞰图 (BEV) 或正视图 (RV) 中,并且使用各种方法从这些 2D 特征图生成对象候选 (Object Proposals)。

图 1:单视角检测和文章提出的基于 VISTA 的多视角融合检测的对比

不同的视角有各自的优缺点需要考虑。在 BEV 中,对象不相互重叠,每个对象的大小与距自我车辆 (ego-vehicle) 的距离无关。RV 是 LiDAR 点云的原生表征,因此,它可以产生紧凑和密集的特征。然而,无论是选择 BEV 还是 RV,投影都会不可避免地损害 3D 空间中传递的空间信息的完整性。例如,由于 LiDAR 数据生成过程自身的特性和自遮挡效应,BEV 表征非常稀疏,并且它压缩了 3D 点云的高度信息,在 RV 中,由于丢失了深度信息,遮挡和对象大小的变化会更加严重。显然,从多个视角进行联合学习,也就是多视角融合,为我们提供了准确的 3D 目标检测的解决方案。先前的一些多视角融合算法从单个视角生成候选目标,并利用多视角特征来细化候选目标。此类算法的性能高度依赖于生成的候选的质量;但是,从单一视角生成的候选没有使用所有可用信息,可能导致次优解的产生。其他工作根据不同视角之间的坐标投影关系融合多视角特征。这种融合方法的准确性依赖于另一个视角的相应区域中可提供的补充信息;然而遮挡效应是不可避免的,这会导致低质量的多视角特征融合产生。

为了提高 3D 目标检测的性能,在本文中,给定从 BEV 和 RV 学习到的 3D 特征图,我们提出通过双跨视角空间注意力机制 (VISTA) 从全局空间上下文中生成高质量的融合多视角特征用于预测候选目标,如图 1 所示。所提出的 VISTA 利用源自Transformer 的注意机制,其中 Transformer 已经被成功应用于各种研究环境(例如自然语言处理、2D 计算机视觉)中。与通过坐标投影直接融合相比,VISTA 中内置的注意力机制利用全局信息,通过将单个视角的特征视为特征元素序列,自适应地对视角间的所有成对相关性进行建模。为了全面建模跨视角相关性,必须考虑两个视角中的局部信息,因此我们用卷积算子替换传统注意力模块中的 MLP,我们在实验部分展示了这样做的有效性。尽管如此,如实验部分所示,学习视角之间的相关性仍然具有挑战性。直接采用注意力机制进行多视角融合带来的收益很小,我们认为这主要是由于 3D 目标检测任务本身的特性导致的。

一般来说,3D 目标检测任务可以分为两个子任务:分类和回归。正如先前一些工作(LaserNet, CVCNet) 中所阐述的,3D 目标检测器在检测整个 3D 场景中的物体时面临许多挑战,例如遮挡、背景噪声和点云缺乏纹理信息。因此,注意力机制很难学习到相关性,导致注意力机制倾向于取整个场景的均值,这是出乎意料的,因为注意力模块是为关注感兴趣的区域而设计的。因此,我们显式地限制了注意力机制学习到的注意力图 (Attention Map) 的方差,从而引导注意力模块理解复杂的 3D 户外场景中的有意义区域。此外,分类和回归的不同学习目标决定了注意力模块中学习的 queries 和 keys 的不同期望。不同物体各自的回归目标(例如尺度、位移)期望 queries 和 keys 了解物体的特性。相反,分类任务推动网络了解物体类的共性。不可避免地,共享相同的注意力建模会给这两个任务的训练带来冲突。此外,一方面,由于纹理信息的丢失,神经网络难以从点云中提取语义特征。另一方面,神经网络可以很容易地从点云中学习物体的几何特性。这带来的结果就是,在训练过程中,产生了以回归为主导的困境。为了应对这些挑战,我们在提出的 VISTA 中将这两个任务解耦,以学习根据不同任务整合不同的线索。

我们提出的 VISTA 是一个即插即用的模块,可以被用于近期的先进的目标分配 (Target Assignment) 策略中。我们在 nuScenes 和 Waymo 两个基准数据集上测试了提出的基于 VISTA 的多视角融合算法。在验证集上的消融实验证实了我们的猜想。提出的 VISTA 可以产生高质量的融合特征,因此,我们提出的方法优于所有已公布开源的算法。在提交时,我们的最终结果在 nuScenes 排行榜上的 mAP 和 NDS 达到 63.0% 和 69.8%。在 Waymo 上,我们在车辆、行人和骑自行车人上分别达到了 74.0%、72.5% 和 71.6% 的 2 级 mAPH。我们将我们的主要贡献总结如下:

  • 我们提出了一种新颖的即插即用融合模块:双跨视角空间注意力机制 (VISTA),以产生融合良好的多视角特征,以提高 3D 目标检测器的性能。我们提出的 VISTA 用卷积算子代替了 MLP,这能够更好地处理注意力建模的局部线索。
  • 我们将 VISTA 中的回归和分类任务解耦,以利用单独的注意力建模来平衡这两个任务的学习。我们在训练阶段将注意力方差约束应用于 VISTA,这有助于注意力的学习并使网络能够关注感兴趣的区域。
  • 我们在 nuScenes 和 Waymo 两个基准数据集上进行了彻底的实验。我们提出的基于 VISTA 的多视角融合可用于各种先进的目标分配策略,轻松提升原始算法并在基准数据集上实现最先进的性能。具体来说,我们提出的方法在整体性能上比第二好的方法高出 4.5%,在骑自行车的人等安全关键对象类别上高出 24%。
  • 论文链接:https://arxiv.org/abs/2203.09704
  • 代码链接:https://github.com/Gorilla-Lab-SCUT/VISTA

第二章 双跨视角空间注意力机制

对于大多数基于体素的 3D 目标检测器,它们密集地产生逐 pillar 的目标候选,经验上讲,生成信息丰富的特征图可以保证检测质量。在多视角 3D 目标检测的情况下,目标候选来自融合的特征图,因此需要在融合期间全面考虑全局空间上下文。为此,我们寻求利用注意力模块捕获全局依赖关系的能力进行多视角融合,即跨视角空间注意力。在考虑全局上下文之前,跨视角空间注意力模块需要聚合局部线索以构建不同视角之间的相关性。因此,我们提出 VISTA,其中基于多层感知器 (MLP) 的标准注意力模块被卷积层取代。然而,在复杂的 3D 场景中学习注意力是很困难的。为了采用跨视角注意力进行多视角融合,我们进一步解耦了 VISTA 中的分类和回归任务,并应用提出的注意力约束来促进注意力机制的学习过程。

在本节中,我们将首先详细介绍所提出的双跨视角空间注意力机制(VISTA)的整体架构,然后详细阐述所提出的 VISTA 的解耦设计和注意力约束。

2.1 整体架构

图 2:VISTA 整体架构

如图 2 所示,VISTA 将来自两个不同视角的特征序列作为输入,并对多视角特征之间的跨视角相关性进行建模。与使用线性投影转换输入特征序列的普通注意力模块不同,VISTA 通过 3x3 卷积操作子将输入特征序列

投影到 queries

中。为了将分类和回归解耦开,Q和K通过单独的 MLP 投影到

。为了计算V的加权和作为跨视角输出F,我们应用缩放的点积来获得跨视角注意力权重

并且输出将是

。输出F_i将被馈送到单个前馈网络以FFN_i获得最终结果。我们采用先前工作中广泛使用的架构作为我们的 FFN,以确保非线性和多样性。我们提出的 VISTA 是一种单阶段方法,可根据跨视角融合的特征直接生成候选目标;这样的设计可以利用更多信息进行准确高效的 3D 目标检测。

2.2 解耦分类和回归任务

VISTA 将分类和回归任务解耦。在共享卷积算子之后,queries 和 keys 通过单独的线性投影进一步处理产生Q_i和K_i,然后它们将根据语义信息或几何信息参与不同的注意力建模。这种解耦的动机是分类和回归的监督信号对训练造成的不同影响。

给定场景中的 query 目标,为了分类,注意力模块需要从全局上下文中的对象中聚合语义线索,以丰富融合特征中传达的语义信息。这样的目标要求学习的 queries 和 keys 知道同一类别的不同对象之间的共性,以使同一类别的对象在语义上应该相互匹配。然而,回归任务不能采用相同的 queries 和 keys,因为不同的对象有自己的几何特征(例如位移、尺度、速度等),回归特征应该在不同的对象上是多样的。因此,在分类和回归的联合训练过程中,共享相同的 queries 和 keys 会导致注意力学习发生冲突。

此外,无论是单视角还是多视角,分类和回归结果都是从传统的基于体素的 3D 目标检测器中的相同特征图预测的。然而,由于 3D 场景的固有属性,3D 点云中不可避免地存在遮挡和纹理信息丢失,3D 检测器难以提取语义特征,给分类学习带来很大挑战。相反,3D 点云传达的丰富几何信息减轻了网络理解物体几何属性的负担,这是学习回归任务的基础。结果,在网络训练过程中,出现了分类和回归之间学习的不平衡现象,其中分类的学习被回归主导。这种不平衡的学习是基于 3D 点云的,包含分类和回归任务的 3D 目标检测中的常见问题,这将对检测性能产生负面影响。具体来说,3D 检测器在具有相似几何特征的不同对象类别(例如卡车和公共汽车)上不会很鲁棒。

为了缓解上述问题,我们分别为语义和几何信息分别建立注意力模型。注意力模块的输出是基于构建的语义和几何注意力权重的

。分类和回归的监督分别应用于

,保证了相应任务的有效学习。

2.3 注意力约束

当学习从全局上下文中对跨视角相关性进行建模时,所提出的 VISTA 面临着许多挑战。3D 场景包含大量背景点(大约高达 95%),只有一小部分是有助于检测结果的兴趣点。在跨视角注意力的训练过程中,海量的背景点会给注意力模块带来意想不到的噪音。此外,复杂 3D 场景中的遮挡效应给注意力学习带来了不可避免的失真。因此,注意力模块倾向于关注不相关的区域。注意力学习不佳的极端情况是全局平均池化(GAP)操作,正如我们在实验部分中所展示的,没有任何明确的监督,直接采用注意力模块进行多视角融合会产生类似于 GAP 的性能,这表明注意力模块不能很好地对跨视角相关性建模。

为了使注意力模块能够专注于特定目标而不是一般的点,我们提出对学习的注意力权重的方差施加约束。利用提出的约束,我们使网络能够学习注意到特定目标。通过将注意力方差约束与传统的分类回归监督信号相结合,注意力模块专注于场景中有意义的目标,从而产生高质量的融合特征。我们将提出的约束设定为训练期间的辅助损失函数。为简单起见,我们忽略 batch 维度,给定学习的注意力权重

分别是 BEV 和 RV 中的 pillar 数量,xy 平面中 GT 框的尺度和中心位置的集合

,其中

是场景中的框数量。对于 BEV 中的每个 pillar,我们根据体素大小计算其中心的真实坐标,并得到集合

。每个 GT 框的注意力权重通过以下方式获得:

然后我们为所有 GT 框制定方差约束如下:

其中N_q是b_q由包围的 pillar 的数量,

计算给定向量的方差。

第三章 实现

3.1 体素化

我们根据 x,y,z 轴对点云进行体素化。对于 nuScenes 数据集,体素化的范围是[-51.2, 51.2]m, [-51.2,51.2]m 和[-5.0,3]m,以 x,y,z 表示。对于 Waymo 数据集,范围为[-75.2,75.2]m、[-75.2,75.2]m 和[-2,4]m。除非特别提及,否则我们所有的实验都是在 x、y、z 轴的[0.1,0.1,0.1]m 的低体素化分辨率下进行的。

3.2 数据增广

点云根据 x,y 轴随机翻转,围绕 z 轴旋转,范围为[-0.3925,0.3925]rad,缩放系数范围为 0.95 到 1.05,平移范围为[ 0.2,0.2,0.2]m 在 x,y,z 轴上。采用类别平衡分组采样和数据库采样来提高训练时正样本的比例。

3.3 联合训练

我们在各种目标分配策略 (CBGS, OHS, CenterPoint) 上训练 VISTA。为了训练网络,我们计算不同目标分配策略的原始损失函数,我们建议读者参考他们的论文以了解更多关于损失函数的细节。简而言之,我们将分类和回归考虑在内:

其中λ_1和λ_2是损失函数权重,

是 GT 标签y和

预测之间的分类损失函数,

是 GT 框b和预测框

的回归损失函数。

总损失函数L是

的加权和:

。我们将λ_1、λ_2和λ_3设置为 1.0、0.25、1.0。我们将 Focal loss 作为

,并将 L1 损失作为

第四章 实验

表一:nuScenes 测试集上的 3D 检测结果

表二:Waymo 测试集上的 3D 检测结果

我们在 nuScenes 数据集和 Waymo 数据集上评估 VISTA。我们在三种具有不同目标分配策略的最先进方法上测试 VISTA 的功效:CBGS、OHS 和 CenterPoint。

4.1 数据集和技术细节

nuScenes 数据集包含 700 个训练场景、150 个验证场景和 150 个测试场景。数据集以 2Hz 进行标注,总共 40000 个关键帧被标注了 10 个对象类别。我们为每个带标注的关键帧组合 10 帧扫描点云以增加点数。平均精度 (mAP) 和 nuScenes 检测分数 (NDS) 被应用于我们的性能评估。NDS 是 mAP 和其他属性度量的加权平均值,包括位移、尺度、方向、速度和其他框的属性。在训练过程中,我们遵循 CBGS 通过 Adam 优化器和单周期学习率策略 (one-cycle) 优化模型。

Waymo 数据集包含 798 个用于训练的序列,202 个用于验证的序列。每个序列的持续时间为 20 秒,并以 10Hz 的频率采样,使用 64 通道的激光雷达,包含 610 万车辆、280 万行人和 6.7 万个骑自行车的人。我们根据标准 mAP 和由航向精度 (mAPH) 加权的 mAP 指标来评估我们的网络,这些指标基于车辆的 IoU 阈值为 0.7,行人和骑自行车的人为 0.5。官方评估协议以两个难度级别评估方法:LEVEL_1 用于具有超过 5 个 LiDAR 点的框,LEVEL_2 用于具有至少一个 LiDAR 点的框。

4.2 与其他方法的比较

我们将提出的基于 VISTA 的 OHS 的测试结果提交给 nuScenes 测试服务器。为了对结果进行基准测试,我们遵循 CenterPoint 来调整训练分辨率并利用双翻转测试增强。由于我们的结果基于单一模型,因此我们的比较中不包括使用集成模型和额外数据的方法,测试性能见表一。我们提出的 VISTA 在 nuScenes 测试集上实现了最先进的性能,在整体 mAP 和 NDS 中都大大优于所有已发布的方法。特别是在摩托车和自行车上的表现,mAP 上超过了第二好的方法 CenterPoint 高达 48%。具体来说,几何相似类别(例如卡车、工程车辆)的性能提升证实了我们提出的解耦设计的有效性。

为了进一步验证我们提出的 VISTA 的有效性,我们将提出的 VISTA 应用在 CenterPoint 上,并将测试结果提交到 Waymo 测试服务器。在训练和测试期间,我们遵循与 CenterPoint 完全相同的规则,测试性能见表二。VISTA 在所有级别的所有类别中为 CenterPoint 带来了显着改进,优于所有已发布的结果。

4.3 消融学习

表三:多视角融合消融学习,实验在 nuScenes 验证集上进行

表四:基于 VISTA 的先进方法的性能提升,实验在 nuScenes 验证集上进行

如表三所示,为了证明所提出的 VISTA 的优越性,我们以 OHS 作为我们的基线 (a) 在 nuScenes 数据集的验证集上进行了消融研究。正如前文所述,如果没有注意力约束,注意力权重学习的极端情况将是全局平均池化(GAP)。为了澄清,我们通过 GAP 手动获取 RV 特征,并将它们添加到所有 BEV 特征上实现融合。这种基于 GAP 的融合方法 (b) 将基线的性能 mAP 降低到 59.2%,表明自适应融合来自全局空间上下文的多视角特征的必要性。直接采用 VISTA 进行多视角融合 (d),mAP 为 60.0%。当将卷积注意力模块替换为传统的线性注意力模块(c) 时,整体 mAP 下降到 58.7%,这反映了聚合局部线索对于构建跨视角注意力的重要性。在添加提出的注意力方差约束后,如 (e) 所示,整体 mAP 的性能提高到 60.4%。从 (d) 到(e)行的性能提升表明注意力机制可以通过注意力约束得到很好的引导,使得注意力模块能够关注整个场景的兴趣区域。然而,共享注意力建模会带来分类学习和回归任务之间的冲突,在 3D 目标检测中,分类任务将被回归任务占主导地位。如(f)所示,在解耦注意力模型后,整体 mAP 的性能从 60.4% 提高到 60.8%,进一步验证了我们的假设。

所提出的 VISTA 是一种即插即用的多视角融合方法,只需稍作修改即可用于各种最近提出的先进目标分配策略。为了证明所提出的 VISTA 的有效性和泛化能力,我们在 CenterPoint、OHS 和 CBGS 上实现了 VISTA,它们是最近的先进方法。这些方法代表基于 anchor 或 anchor-free 的不同主流目标分配。我们在 nuScenes 数据集的验证集上评估结果,所有方法都是基于他们的官方代码库。如表四所示,所有三个目标分配策略在 mAP 和 NDS 分数中都实现了很大的性能提升(在 mAP 和 NDS 中分别约为 1.3% 和 1.4%),表明所提出的 VISTA 可以通过跨视角空间注意力机制融合普遍高质量的多视角特征。

我们在表三中展示了提出的 VISTA 在一个 RTX3090 GPU 上的运行时间。未经任何修改,基线 (a) 以每帧 60 毫秒运行。在基线中采用卷积注意力模块 (d) 后,运行时间增加到 64 毫秒。我们可以从 (e) 和(f)中观察到,虽然应用所提出的注意力方差约束不会影响推理速度,但解耦设计花费了 5ms,但额外的延迟仍然可以忽略不计。以这样的效率运行,我们认为所提出的 VISTA 完全符合实际应用的要求。

4.4 VISTA 分析

图 3:具有((a)和(c))和没有((b)和(d))注意方差约束的 VISTA 学习到的注意力权重的可视化。每行呈现一个场景,Query 框以红色显示,点的颜色越亮,点的注意力权重越高。

图 4:在有和没有解耦设计的情况下的检测结果的可视化。每行代表一个场景。浅色表示的框指的是 GT 框,深色表示的框表示正确的预测结果,不同强调色表示的框表示错误的预测。

我们认为,通过所提出的注意力约束训练的 VISTA 可以捕捉 BEV 和 RV 之间的全局和局部相关性,从而可以有效地执行多视角融合以进行准确的框预测。为了生动地展示注意力方差约束在训练 VISTA 中的有效性,我们在图 3 中可视化了网络在有和没有注意力方差约束情况下构建的的跨视角相关性。给定包含目标视角(BEV)的框的区域以 query 源视角(RV),我们得到上述区域中每个 pillar 的相应跨视角注意力权重,并将权重映射回原点云以可视化。我们观察到,在没有注意力方差约束的情况下,学习到的注意力权重对于 RV 中的几乎每个 pillar 都保持较小的值,从而导致近似的全局平均池化操作。在图 3(b)和 (d) 中,注意力模块关注远离 query 汽车和行人的背景点,每个聚焦区域的注意力权重相对较低。相反,用注意力方差约束训练的注意力模块突出显示具有相同 query 类别的物体,如图 3(a)和 (c) 所示。特别是对于 query 汽车,通过注意力方差约束训练的注意力模块成功地关注了场景中的其他汽车。

我们提出的 VISTA 的另一个关键设计是分类和回归任务的解耦。这两个任务的各自的注意力建模缓解了学习的不平衡问题,因此检测结果更加准确和可靠。为了展示我们设计的意义,我们在图中展示了解耦前后的检测结果。每行代表一个场景,左列显示解耦后的结果,另一列显示未解耦的结果。如图 4(b)和 (d) 所示,没有解耦设计的 3D 目标检测器很容易将物体 A 误认为具有相似几何特性的另一个物体 B,我们将这种现象称为 A-to-B,例如公共汽车(紫色)到卡车(黄色)、公共汽车(紫色)到拖车(红色)和自行车(白色)到摩托车(橙色),证明了分类和回归任务之间存在不平衡训练。此外,当将右列与左列进行比较时,混淆的预测并不准确。相反,具有解耦设计的 VISTA 成功区分了对象的类别,并预测了紧密的框,如图 4(a)和 (c) 所示,证明了所提出的解耦设计的功效。

第五章 总结

在本文中,我们提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点,我们提出限制学习的注意力权重的方差。我们将分类和回归任务解耦以处理不平衡训练问题。我们提出的即插即用 VISTA 能够产生高质量的融合特征来预测目标候选,并且可以应用于各种目标分配策略方法。nuScenes 和 Waymo 数据集的基准测试证明了我们提出的方法的有效性和泛化能力。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
2370
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
CVPR 2022 | 即插即用!华南理工开源VISTA:双跨视角空间注意力机制实现3D目标检测SOTA
LiDAR (激光雷达)是一种重要的传感器,被广泛用于自动驾驶场景中,以提供物体的精确 3D 信息。因此,基于 LiDAR 的 3D 目标检测引起了广泛关注。许多 3D 目标检测算法通过将无序和不规则的点云进行体素化,随后利用卷积神经网络处理体素数据。然而,3D 卷积算子在计算上效率低下且容易消耗大量内存。为了缓解这些问题,一系列工作利用稀疏 3D 卷积网络作为 3D 骨干网络来提取特征。如图 1 所示,这些工作将 3D 特征图投影到鸟瞰图 (BEV) 或正视图 (RV) 中,并且使用各种方法从这些 2D 特征图生成对象候选 (Object Proposals)。
Amusi
2022/04/18
1.5K0
CVPR 2022 | 即插即用!华南理工开源VISTA:双跨视角空间注意力机制实现3D目标检测SOTA
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
为了安全和有效率的路径规划,自主车辆依赖于3D目标检测,即它们必须准确识别周围交通环境中的目标(例如车辆、骑自行车的人、步行的人)的地点、尺寸和类型。最近的一些3D目标检测器在LiDAR点云上运行,需要通过大量手动标注的数据进行监督训练,这在获得足够质量水平的数据方面既耗时又昂贵。此外,尽管其性能令人印象深刻,但全监督的3D检测器缺乏应对不断变化的目标数据的灵活性,例如由不同的传感器设置。
AIGC 先锋科技
2024/08/27
2720
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪
代码、论文地址:在公众号「3D视觉工坊」,后台回复「CenterPoint」,即可直接下载。
3D视觉工坊
2021/03/19
3.7K0
CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
目标检测是计算机视觉中的一个基本任务,它涉及到在图像或视频中检测并定位特定的类别目标。2D目标检测意味着确定目标在图像中的位置(以2D边界框表示),并对目标进行特定类别的分类。最先进的目标检测方法可分为两阶段方法([1, 2, 3])和单阶段方法([4, 5, 6])。两阶段方法遵循 Proposal 驱动的方法:第一阶段生成一组区域 Proposal ,第二阶段使用卷积神经网络将候选位置(目标或背景)分类为目标,并对其进行优化。尽管准确性很高,但它们在推理速度方面存在缺陷,这推动了单阶段目标检测器的需求。单阶段方法通过依赖预定义的 Anchor 框,依靠卷积神经网络在一次通过网络时进行目标定位和分类。
未来先知
2024/08/20
5690
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
nuscenes再创新高!EA-LSS:高效优化LSS方案,即插即用~
大家好,很开心能够受邀来到自动驾驶之心分享我们最近针对多模态BEV 3D目标检测的改进方案——EA-LSS。下面将会给大家详细介绍EA-LSS的设计思路与实验。
公众号-arXiv每日学术速递
2023/09/11
1.1K0
nuscenes再创新高!EA-LSS:高效优化LSS方案,即插即用~
CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪
代码、论文地址:在公众号「计算机视觉工坊」,后台回复「CenterPoint」,即可直接下载。
计算机视觉
2021/03/17
2.1K0
3D目标检测仍是研究热点,改造传统、聚焦难题!目标检测论文推荐
推荐三篇今天(2023.1.9)新出目标检测方向论文,其均为3D目标检测,其中两篇论文来自图森未来,方法上一篇多视图+两篇点云方向。
CV君
2023/03/06
1.1K0
3D目标检测仍是研究热点,改造传统、聚焦难题!目标检测论文推荐
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
在提交之时(2024/03/08),SparseLIF在nuScenes数据集上取得了最先进的性能,在验证集和测试基准上都排名第一,明显优于所有最先进的3D目标检测器。
AIGC 先锋科技
2024/07/08
5890
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)
负责提供周围目标的精确3D边界框的3D目标检测是自动驾驶中必不可少的环境感知任务。最近,依靠激光雷达的精确深度测量,基于激光雷达的检测器取得了优异的性能。然而,LIDAR系统的一些固有缺陷,例如高成本和对不利天气条件的敏感性,不可避免地限制了这些方法的应用。相比之下,摄像机传感器更经济,在雨雪天气下更耐用,并且可以满足严格的车辆法规。
集智书童公众号
2023/09/04
8030
即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
3D传感器(如LiDAR和RGB-D相机传感器)的广泛应用导致3D多目标跟踪(MOT)在多个领域得到广泛应用,包括自动驾驶、室内机器人、和无人驾驶飞机等。与2D MOT相比,3D MOT 利用3D空间信息来增强对物理环境的3D理解。
未来先知
2024/09/20
2480
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
解决边界框框定不准确问题,提高3D目标检测的准确性!
激光雷达在自动驾驶领域的广泛应用,使得基于激光雷达的3D目标检测越来越受到关注,并得到了大量的开发。当前高性能的3D检测器通常采用两阶段的网络结构。与单阶段竞争对手相比,两阶段方法涉及额外的耗时操作,如集束抽象[14]和感兴趣区域(RoI)池化[16],并具有更高的内存负担,限制了其在现场自动驾驶场景中的应用。
未来先知
2024/09/24
3090
解决边界框框定不准确问题,提高3D目标检测的准确性!
ECCV20| 3D目标检测时序融合网络
论文题目:An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds
计算机视觉
2020/12/11
1.5K0
ECCV20| 3D目标检测时序融合网络
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
3D目标检测是自动驾驶车辆(AV)感知堆栈的至关重要组成部分。为了促进3D感知研究,AV行业已经发布了许多大规模的多模态数据集。然而,尽管在检测常见类别(如汽车和公交车)方面取得了显著改进,最先进的检测器在罕见类别(如_stromler_和_debris_)上的表现仍然不佳,这可能会影响下游规划,从而催生了_长尾3D检测_(LT3D)的研究。
集智书童公众号
2023/12/26
1.9K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
贾佳亚等提出Fast Point R-CNN,利用点云快速高效检测3D目标
作者:Yilun Chen、Shu Liu、Xiaoyong Shen、Jiaya Jia
机器之心
2019/09/17
5320
贾佳亚等提出Fast Point R-CNN,利用点云快速高效检测3D目标
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.3K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
基于LiDAR的感知系统对于自动驾驶汽车[20]或移动机器人[41]的安全导航至关重要。一个关键挑战是在车辆环境中对物体进行可靠检测和分类[54]。最先进的(SOTA)三维目标检测方法在很大程度上依赖于用于训练的数据集的质量和多样性,同时也取决于这些数据集在推理过程中如何真实地反映现实世界条件。获取和标注此类数据仍然是一项重大的技术和实践挑战,既耗时又劳动密集。这在三维目标检测模型的大规模开发和部署中构成了一个主要障碍。
集智书童公众号
2024/05/10
9400
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
融合点云与图像的环境目标检测研究进展
在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。
一点人工一点智能
2024/03/22
2K0
融合点云与图像的环境目标检测研究进展
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.3K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.2K0
从2D到3D的目标检测综述
推荐阅读
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
2370
CVPR 2022 | 即插即用!华南理工开源VISTA:双跨视角空间注意力机制实现3D目标检测SOTA
1.5K0
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
2720
CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪
3.7K0
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
5690
nuscenes再创新高!EA-LSS:高效优化LSS方案,即插即用~
1.1K0
CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪
2.1K0
3D目标检测仍是研究热点,改造传统、聚焦难题!目标检测论文推荐
1.1K0
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
5890
即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)
8030
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
2480
解决边界框框定不准确问题,提高3D目标检测的准确性!
3090
ECCV20| 3D目标检测时序融合网络
1.5K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
1.9K0
贾佳亚等提出Fast Point R-CNN,利用点云快速高效检测3D目标
5320
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.3K0
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
9400
融合点云与图像的环境目标检测研究进展
2K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
1.3K0
从2D到3D的目标检测综述
2.2K0
相关推荐
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档