首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【论文速读】OpenAD:用于 3D 对象检测的开放世界自动驾驶基准

【论文速读】OpenAD:用于 3D 对象检测的开放世界自动驾驶基准

作者头像
一点人工一点智能
发布2024-12-02 19:55:22
发布2024-12-02 19:55:22
5540
举报

论文:OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection

论文地址:https://arxiv.org/abs/2411.17761

该论文提出了一种新的开放世界自动驾驶测试基准OpenAD,旨在评估3D对象检测模型在不同场景下的性能表现,并针对现有的开放世界感知模型和专门用于自动驾驶的模型进行了分析比较。同时,该论文还提出了一个基于MLLM的标注Pipeline,能够自动识别异常情况并提供语义注释,为开发更加准确的开放世界感知模型提供了基础。

论文方法

1.1 方法描述

本文提出了一种开放世界物体检测方法,可以直接在推理过程中生成无限数量的类别标签。该方法基于自然语言解码器,能够利用RoI特征直接生成类别标签。此外,还提供了一个工具包代码,将五个原始数据集的场景合并成一个统一的格式,并将其转换为OpenAD数据,以方便加载和可视化过程。

1.2 方法改进

与传统的开放世界物体检测方法不同,本文的方法不需要预先定义物体类别,可以在推理过程中动态生成类别标签。此外,通过使用自然语言解码器,可以直接从RoI特征中生成类别标签,从而提高了模型的准确性和效率。

1.3 解决的问题

传统的开放世界物体检测方法需要预先定义物体类别,无法适应新的、未知的物体类别。而本文的方法可以动态生成类别标签,可以有效地应对新的、未知的物体类别。同时,通过使用自然语言解码器,可以直接从RoI特征中生成类别标签,避免了传统方法中的繁琐标注过程,提高了模型的训练效率。

论文实验

本文主要介绍了针对自动驾驶领域的开放世界对象检测任务的实验研究。首先,作者提出了一个基于视觉中心的半自动化注释Pipeline来构建OpenAD数据集,并利用该数据集进行了多种模型的评估和比较。其次,作者提出了一种视觉中心的3D开放世界对象检测方法作为基准方法,并与其他方法进行了比较。最后,作者还对提出的基线方法进行了进一步的分析和讨论。

在实验中,作者使用了平均精度(AP)和平均召回率(AR)等评估指标来衡量不同方法的性能。对于2D对象检测任务,作者采用了与COCO相同的方法,在交并比(IoU)和语义相似度之间进行阈值设定。而对于3D对象检测任务,则采用了中心距离和语义相似度相结合的多阈值平均法来进行计算。

在2D对象检测任务中,作者比较了多种2D开放世界方法、专门化方法以及融合方法的性能。结果表明,当前的开放世界方法虽然具有良好的领域泛化能力和词汇表扩展能力,但在预测无关驾驶的对象或重复预测同一物体的不同部分时表现不佳。相比之下,专门化方法在常见类别上的表现更出色,但缺乏领域泛化能力和词汇表扩展能力。因此,作者提出了融合方法,通过结合开放世界方法和专门化方法的优点,取得了更好的性能。

在3D对象检测任务中,作者提出了一种基于视觉中心的3D开放世界对象检测方法作为基准方法,并与其他方法进行了比较。结果显示,这种方法能够有效地利用2D开放世界模型的能力,提高了在nuScenes数据集上的性能。

总的来说,本文的研究成果为自动驾驶领域的开放世界对象检测问题提供了一些有价值的参考和启示。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.1 方法描述
  • 1.2 方法改进
  • 1.3 解决的问题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档