Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >多视角行人检测遇不同摄像系统性能滑坡,无监督领域自适应法实现无缝部署 !

多视角行人检测遇不同摄像系统性能滑坡,无监督领域自适应法实现无缝部署 !

作者头像
未来先知
发布于 2025-02-25 08:06:31
发布于 2025-02-25 08:06:31
1830
举报
文章被收录于专栏:未来先知未来先知

作者探讨了一种多视角行人检测方法,在这种情况下, Token 数据是由不同于测试使用的多摄像机系统收集的。 尽管最近的多视角行人检测器在用于训练的摄像系统上表现出色,但在应用于不同设置时,其性能会下降。 为了实现跨多种摄像系统的无缝部署,作者提出了一种无监督领域自适应(UDA)方法,该方法无需额外的 Token 数据即可使模型适应新的摄像系统。 具体而言,作者利用了一种新颖的伪标签技术与预训练教师自我训练框架,专门适用于多视角行人检测。该方法在多个基准测试中达到了最先进的性能,包括MultiviewX Wildtrack。 与之前的方法不同,作者的方法消除了对外部单目 Token 数据集的依赖,从而减少了对 Token 数据的依赖性。 广泛的评估结果证明了该方法的有效性,并验证了关键设计选择。 通过使模型能够在不同的摄像系统配置下进行稳健的适应,作者的工作增强了多视角行人检测的实际应用,并为未来的研究奠定了牢固的UDA基础。

1. Introduction

多视图检测旨在从由多个摄像头同时拍摄的一组图像中检测物体,每个摄像头提供了同一场景的不同视角。利用多个视图可以提高对遮挡的鲁棒性,并有助于推理物体的三维属性,这在单一摄像头的情况下可能会更具挑战性。在本文中,作者专注于多视图行人检测,目标是从多个固定摄像头拍摄的图像中生成鸟瞰图(BEV)中的占用地图。这一任务在监控[12]、机器人技术[8]、体育分析[35]以及自主移动机器人控制[44]等应用中具有重要意义。

近期的多视角行人检测方法会联合考虑所有输入图像,以学习一个密集的鸟瞰图(BEV)特征图。随后,通常使用卷积层对该BEV表示进行细化,以获得概率占用图(POM),从中可以提取检测结果。尽管这些方法取得了显著成果,但它们依赖于标注的多视角数据集,这类数据集由于多相机布置和图像标注的成本问题通常是稀缺的。在实践中,标注数据通常限于仿真或单一的真实世界相机布置,这导致了过拟合,并且在不同相机布置下泛化能力较差。

从实际测试环境中收集 未标注 数据相对较为直接,因此无监督域适应(UDA)成为了解决多视角检测中的泛化挑战的有前景的方法。UDA 在单目感知任务中得到了广泛应用,例如图像分类、语义分割和目标检测,其中均值教师自训练方法尤为流行。该方法使用均值教师生成的伪标签对学生模型进行训练,均值教师是由学生参数的指数加权平均组成的。然而,据作者所知,目前仅有 Lima 等人 [27, 28] 的工作探索了在多视角行人检测中的无监督域适应。他们在方法中通过自训练来适配多视角检测器,但依赖于基于大量带标签单目数据集的预训练外部检测器,这限制了该方法在缺乏此类资源的应用场景中的实用性。

作者通过考虑一个严格的未监督域适应(UDA)设置来解决这一问题,该设置排除了任何外部 Token 数据集或预训练检测器。由于受限的数据集和衍生检测器的许可问题,这种设置在实践中具有相关性;此外,从概念上讲也十分有趣,因为它为进一步扩展框架到新的目标类型提供了可能性。作者在此基础上借鉴了均值教师自我训练的方法,并将其应用于多视角行人检测,同时确定了严格未监督域适应设置的关键成功因素。尤为重要的是,作者提出了一种新颖的后处理方法,以增强伪标签的可靠性,显著提高了自我训练的有效性。作者的方法在多个基准测试中实现了最先进的性能。此外,尽管最近的研究主要集中在弥合模拟与现实世界的领域差距上,但很少有研究关注不断变化的摄像头配置所带来的挑战。为此,作者引入了两个新的基准测试,专门用于跨摄像头配置适应性研究。

作者的贡献可以概括为:

  1. 作者在严格的UDA设置下揭示了多视角行人检测中自我训练的潜力,并开发了一种领先的方法来解决这一问题。
  2. 作者提出了一种简单而有效的后处理方法,该方法可以提高伪标签的可靠性,从而增强自我训练的效果。
  3. 作者在多个已建立的标准基准和两个新基准上展示了作者方法的有效性,这两个新基准是作者专门为了解决跨相机 rigs 调适问题而引入的。

2. Related Work

2.1. Multi-view pedestrian detection

多视角行人检测旨在利用不同视角的摄像头,以实现比单一摄像头更强健的3D检测和定位。早期方法依赖于每个视角的背景减除,并利用结合贝叶斯推理的图形模型来推理3D地面平面的位置。由于在拥挤场景中背景减除不够具有区分性,许多后续工作用更具先进性的单目感知方法取代了这一组件,例如2D边界框检测、人体姿态估计[26]或实例分割[34]。这些方法还提出了融合单个检测的新方式,例如将检测投影到地面平面上,并基于欧几里得邻近度进行分组,或者采用条件随机场(CRF)[36]。然而,因为这些方法依赖于单目感知,任何单个视角中的缺陷都可能影响整体性能。

与之相对,端到端方法会综合考虑所有输入图像,从而能够更全面地理解视图间的对应关系。早期的方法通过使用卷积神经网络(CNN)处理每个视图以提取特征,然后应用多层感知机(MLP)[6] 或条件随机场(CRF)[3] 来生成检测结果,这些方法通过联合考虑这些特征来进行检测。

最近,MVDet [20] 引入了一种新的方法,即将单个视图中的特征通过透视变换投影到鸟瞰图(BEV)中,从而在BEV中创建了密集的特征图。许多近期的方法在此基础上进行了改进,包括改进的视角特征提取、BEV中的增强特征聚合、修改的解码器 以及多视图特定的数据增强技术。虽然这些方法继续推动多视图行人检测领域的进步,但它们通常需要 Token 的多视图数据集来进行训练,并且难以很好地适应新的相机设置。本研究旨在减少对标注多视图数据的依赖,从而使这些方法在实际应用中更具实用性。

2.2. Unsupervised Domain Adaptation (UDA)

给定来源于源域的带标签数据集和来源于目标域的无标签数据集,无监督领域适应(UDA)旨在将知识从源域转移到目标域,使得模型能够在不需要额外标注的情况下泛化到新的数据分布。UDA在计算机视觉任务中得到了广泛应用,包括图像分类、语义分割以及目标检测。近年来,UDA方法主要遵循两种途径:对抗学习和自助学习。对抗学习旨在创造跨领域的不变输入、输出或特征,帮助模型忽略与任务无关的领域变化。而自助学习则涉及使用伪标签在目标数据集上以监督方式训练学生模型[23]。为了提高伪标签的质量,许多方法[4, 5, 10, 21, 25]使用均值教师[40]——即学生参数的指数移动平均——在训练过程中生成这些标签。然而,伪标签的准确性问题仍然是一个重大挑战[5, 25, 45]。此外,虽然UDA已经在单目任务上取得了显著进步,但将其应用于多视图感知仍鲜有研究。

在少数尝试将UDA方法应用于多视图行人检测的研究中,Lima等人[27]提出了将检测器从[43]适应到 未标注 的目标数据的方法,并使用自训练手段。然而,该方法由于伪标签质量低,仅在单个基准测试上获得了小幅改进。Lima等人后来通过引入均值教师进行伪标签生成[28]改进了其方法。尽管如此,这种方法的成功依赖于预先使用外部检测器生成的伪标签进行训练[26],而这些伪标签又依赖于对大规模标注数据进行单一视图人体姿态监督训练。因此,该方法仍然需要大量的标注数据,可能限制其实用性。相比之下,作者的工作提出了一种无需任何辅助标注数据集或从中派生的预训练模型的多视图行人检测无监督领域适应方案。

3. Methods

在本节中,作者介绍了用于多视角行人检测的UDA方法,该方法旨在利用 Token 的源数据和 未标注 的目标数据来训练适用于目标领域的多视角检测器。首先,作者将详细介绍检测器架构。

随后,阐述作者的整体UDA策略,并最终介绍生成高质量伪标签的方法。

3.1.Multi-view detector

3.2. Mean teacher self-training

3.3. Local-max pseudo-labeling

4. Experiments

4.1. Experimental setup

4.2. Implementation details

4.3. MVUDA compared with previous methods

在本节中,作者将作者的UDA方法与此前的SOTA方法进行了对比,并将其与仅在源域上训练的 Baseline 方法以及Oracle方法进行了比较。Oracle方法类似于 Baseline 方法在源域上进行了训练,但在目标域上使用了标签。关于定性的结果,请参阅补充材料。表1展示了MultiviewX Wildtrack和Wildtrack MultiviewX上的结果。虚线将使用辅助标注数据的方法与仅在源域上使用标签的方法分隔开来。可以看出,与所有研究指标上的基准性能相比,作者的UDA方法显著提高了基准方法的表现。此外,作者的UDA方法在不依赖辅助标注数据的方法中MODA值最高。值得一提的是,在Wildtrack MultiviewX的情况下,作者的UDA方法将基准方法的MODA值从35.9提高到了82.4,尽管[28]方法依赖于一种源自大量标注单目数据集的单目检测器,但其表现仍然远逊于作者方法。

4.4.Ablation study

为了研究 Mean Teacher (MT) 和数据增强 (Aug) 在自我训练 (ST) 框架中的重要性,作者在表3 的两个基准上消融了这些组件。其中,第一行展示了未进行任何适应时的表现( Baseline )。此外,不使用 Mean Teacher 的自我训练意味着冻结的 Baseline 模型在训练过程中生成伪标签。可以看出,单独使用自我训练相较于 Baseline 带来了显著改进。而且,加入 Mean Teacher 和数据增强后,结果有了更显著的提升。值得注意的是,在从仿真到现实的基准中,数据增强的影响更大,它可能是弥合更大领域差距的关键因素之一。

4.5. In-depth analysis of MVUDA

在本节中,作者详细分析了所提出方法的关键组件,包括引入的伪标签技术、参数 以及数据增强方法。通常情况下,检测到的局部极大值更为可靠。然而,由于vanilla方法通常会产生更多的检测结果,因此其召回率更高。值得注意的是,当 值较小时,两种方法之间的差异更为明显。这是因为在此情况下,vanilla后处理方法会生成许多非局部极值的检测结果,这些检测结果可靠性较低,因此作者的方法在这种情况下可以实现更高的MODA。因此,作者的方法能够在较低置信度下利用可靠的伪标签,这在Wildtrack MultiviewX基准测试中尤为有益。

除另有说明外,本研究中的自训练包含局部最大伪标签 Token ,参数设置为 ( k_d = 3 ), (\alpha = 0.99), (\lambda = 1),且不进行数据增强。再次强调,对于从 MultiviewX 到 Wildtrack 的阈值 (\tau) 设定为 0.4;从 Wildtrack 到 MultiviewX 的阈值 (\tau) 设定为 0.2;而对于所有其他基准,则设定为 0.3,以上设定遵循表4 中所呈现的实验结果。

数据增强 由于数据增强是自我训练的一个重要组成部分,作者研究了三种不同的方法……

5. Conclusions

近年来提出的不同方法被用于多视角行人检测。如表8所示,作者进行了Dropview (DV) [43]、3D随机遮挡 (3DR) [32]以及MVAug中开发的两级数据增强 (MVA) [11]的相关实验。可以看出,这些增强方法在大多数基准上的性能都有所提升。然而,当组合使用不同的方法时,最理想的性能是由DV和3DR实现的(不包括MVA)。

作者在补充材料中提供了对 Baseline 模型泛化能力的研究,结果显示相似的结果。鉴于[11]关于MVAug的良好表现,这些结果显得有些出乎意料。不过,这也说明了MVAug的优势,因为与Dropview和3DR相比,MVAug不仅对输入图像进行增强,还对应用于特征的透视变换进行增强,从而使得其更为复杂。

参考

[0]. MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
南洋理工提出DA-BEV | 用图像特征+BEV特征的互补性解决域自适应问题
3D视觉感知旨在在3D空间中感知和理解周围环境,这对于各种应用(如移动机器人,自动驾驶,虚拟现实等)至关重要。尽管单目和基于激光雷达的3D感知取得了显著的进步,但仅使用摄像头的3D感知在鸟瞰视角(BEV)近年来越来越受到关注,得益于其在全面3D理解,丰富的语义信息,高计算效率和低部署成本方面的优势。另一方面,在源域训练的仅使用摄像头的BEV模型在应用到目标域时通常会出现明显的性能退化,如图1所示,这主要是由于明显的跨域差异。
集智书童公众号
2024/01/23
4170
南洋理工提出DA-BEV | 用图像特征+BEV特征的互补性解决域自适应问题
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
基于LiDAR的感知系统对于自动驾驶汽车[20]或移动机器人[41]的安全导航至关重要。一个关键挑战是在车辆环境中对物体进行可靠检测和分类[54]。最先进的(SOTA)三维目标检测方法在很大程度上依赖于用于训练的数据集的质量和多样性,同时也取决于这些数据集在推理过程中如何真实地反映现实世界条件。获取和标注此类数据仍然是一项重大的技术和实践挑战,既耗时又劳动密集。这在三维目标检测模型的大规模开发和部署中构成了一个主要障碍。
集智书童公众号
2024/05/10
9050
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
MLOD:基于鲁棒特征融合方法的多视点三维目标检测
注:这是一篇2019年9月发表在arXiv【1】激光雷达和摄像头数据融合的目标检测论文。
SIGAI学习与实践平台
2019/10/10
1.2K0
MLOD:基于鲁棒特征融合方法的多视点三维目标检测
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
行人检测是计算机视觉中的一个关键问题,应用范围从自动驾驶车辆[1]到监控系统[2]。使用可见图像的现代研究在常规光照条件下表现良好。然而,由于对光照条件的敏感性,可见光在复杂的低光照场景中表现出差的检测性能。为了缓解这一限制,引入了热红外图像来提供补充数据,从而探索多光谱行人检测[3]作为一个有效的解决方案。
未来先知
2024/08/13
2740
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
​Safety-Adapted Loss | 让行人目标检测器也具有安全意识,让路边的行人不被漏检误检
)指标结合距离信息来考虑最坏情况的威胁,并量化关键性。 作者使用RetinaNet和FCOS在nuScenes数据集上的评估结果表明,用作者的Safety-Adapted Loss函数训练模型,可以在不牺牲一般情况(即安全关键区域外的行人)性能的前提下,减少对关键行人的漏检。
集智书童公众号
2024/03/01
3550
​Safety-Adapted Loss | 让行人目标检测器也具有安全意识,让路边的行人不被漏检误检
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.3K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
在深度学习近期发展的推动下,图像分类和目标检测领域已取得显著进展。大量数据集的可用性有助于加速这些进步。然而,为大规模数据集标注仍然是瓶颈,特别是对于2D和3D目标检测。半监督方法(SSA)已提出以解决此问题。与监督方法不同,这些方法仅需要有限数量的标注数据进行训练,其余数据未标注。
AIGC 先锋科技
2024/07/08
3360
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
MIT & Caltech & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!
ALDI++ 在 Cityscapes Foggy Cityscapes 上的AP50超过了先前最先进的方法+3.5,在 Sim10k Cityscapes 上超过了+5.7 AP50(作者的方法是唯一一种超过公正基准线的方法),在 CFC Kenai Channel 上超过了+2.0 AP50。作者的框架、数据集和最先进的方法为DAOD领域提供了一个关键的重新设定,并为未来的研究奠定了坚实的基础。
未来先知
2024/08/08
2220
MIT &  Caltech  & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
为了安全和有效率的路径规划,自主车辆依赖于3D目标检测,即它们必须准确识别周围交通环境中的目标(例如车辆、骑自行车的人、步行的人)的地点、尺寸和类型。最近的一些3D目标检测器在LiDAR点云上运行,需要通过大量手动标注的数据进行监督训练,这在获得足够质量水平的数据方面既耗时又昂贵。此外,尽管其性能令人印象深刻,但全监督的3D检测器缺乏应对不断变化的目标数据的灵活性,例如由不同的传感器设置。
AIGC 先锋科技
2024/08/27
2530
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
深度学习行人重识别综述与展望,TPAMI 2021 最新文章
摘要:行人重识别(Person Re-Identification,简称Re-ID),是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术,在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文 《Deep Learning for Person Re-identification: A Survey and Outlook》,该文作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
3D视觉工坊
2021/01/13
2K0
深度学习行人重识别综述与展望,TPAMI 2021 最新文章
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
Foggy Cityscapes数据集上,作者获得了52.5 mAP,相比于最先进方法的51.2 mAP,这是一个显著的提升。
集智书童公众号
2024/04/25
7500
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
端到端多摄像头跟踪:引入多摄像头跟踪Transformer(MCTR) !
计算机视觉中的目标跟踪长期以来一直是研究领域的核心挑战,因为它在许多实际应用中具有广泛的应用价值。尽管大多数研究努力集中在单摄像头视频流的多目标跟踪上,但由于在多样应用(如安全、监测或体育分析)中部署的多摄像头系统日益普及,因此多摄像头多目标跟踪的需求也在增加。在这些应用中,多摄像头系统相对于单目摄像机具有多种优势,如增加覆盖范围、减少盲区和提高跟踪鲁棒性,尤其是在涉及检测失败或持续遮挡的场景中。
未来先知
2024/09/11
6880
端到端多摄像头跟踪:引入多摄像头跟踪Transformer(MCTR) !
点云分割训练哪家强?监督,弱监督,无监督还是半监督?
近年来,自动驾驶领域的各项下游任务基本上都要求了对场景的语义理解,比如自动驾驶车辆要能够理解哪个是路面、哪个是交通灯、哪个是行人、哪个是树木,因此点云分割的作用就不言而喻。
3D视觉工坊
2023/04/29
1K0
点云分割训练哪家强?监督,弱监督,无监督还是半监督?
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。
AIGC 先锋科技
2024/07/08
9920
​四大院校携手 GraphBEV  |  将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
8200
Occ-BEV:通过3D场景重建实现多相机统一预训练
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
基于视觉的3D占用预测旨在估计周围 ego-vehicle 所包围的 3D Voxel 的空间占用状态,这为 3D 场景提供了全面的 3D 理解。通过将整个空间划分为 Voxel 并预测其占用和语义信息,3D 占用网络赋予了通用的物体表示能力,其中超出词汇的物体和异常情况可以很容易地表示为 _[占用;未知]_。
集智书童公众号
2023/12/12
9490
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
近年来,在自动驾驶领域,鸟瞰视角(BEV)空间中的3D目标检测取得了很大的进展。作为激光雷达(LiDAR)方法的替代方案,使用周围摄像头生成伪激光雷达点在自动驾驶领域被视为一种既经济又具有前景的解决方案。因此,为了将感知任务集成到BEV空间中,提出了许多方法。
集智书童公众号
2023/12/19
1.3K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
异常检测(AD),识别不规则或显著偏离正常性的实例,在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中,"不规则性"通常由以下因素引起:高 Level (或语义)变化,如出现未见过的类别目标;物体上的缺陷,如划痕、凹痕;颜色、形状、大小的低 Level 变化;或像素级噪声[16]。标准的做法是学习表示,同时还有能够对常规实例集合内的变化鲁棒,同时又能对引起不规则性的因素敏感的分类器。然而,当不规则性是任意的,并且取决于实例的上下文和/或个体特征,而这些可能事先不知道或未被观察到时,这种范式表现得很差。例如,在像"椅子"这样包含视觉上非常多样实例的物体类别中,三条腿可能意味着缺少一条腿,因此对于某个椅子实例来说是异常,而对于另一个实例则是正常的。这里的AD取决于椅子实例最初是否被设计为有三条腿。
AIGC 先锋科技
2024/07/31
4290
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
安全自主驾驶依赖于可靠的场景感知,核心任务是定位和识别周围3D世界中的决策性物体。为增强感知能力,激光雷达和摄像头传感器在大多数当前自主车辆中同时使用,分别提供点云和RGB图像。两种模式由于其不同的感知特性而表现出自然而强烈互补作用。点云涉及必要的局部化和几何信息,表示稀疏;而图像在高分辨率下提供丰富的外观和语义信息。因此,跨模态的专门信息融合对于强大的场景感知变得至关重要。
AIGC 先锋科技
2024/08/27
5620
复旦多模态 3D 检测最新成果  DeepInteraction!,融合感知算法刷新 SOTA !
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
目标检测通常采用传统的密集滑窗的方式或者当前主流的铺设锚点框(anchor)的检测方式,但不管哪种方式都不可避免地需要针对特定数据集设计甚至优化滑窗或锚点框超参数,从而增加了训练难度并限制了检测器的通用性。
机器之心
2019/04/29
1.1K0
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
推荐阅读
南洋理工提出DA-BEV | 用图像特征+BEV特征的互补性解决域自适应问题
4170
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
9050
MLOD:基于鲁棒特征融合方法的多视点三维目标检测
1.2K0
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
2740
​Safety-Adapted Loss | 让行人目标检测器也具有安全意识,让路边的行人不被漏检误检
3550
一文全览 | 2023最新环视自动驾驶3D检测综述!
1.3K0
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
3360
MIT & Caltech & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!
2220
无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法 !
2530
深度学习行人重识别综述与展望,TPAMI 2021 最新文章
2K0
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
7500
端到端多摄像头跟踪:引入多摄像头跟踪Transformer(MCTR) !
6880
点云分割训练哪家强?监督,弱监督,无监督还是半监督?
1K0
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
9920
Occ-BEV:通过3D场景重建实现多相机统一预训练
8200
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
9490
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
1.3K0
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
4290
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
5620
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
1.1K0
相关推荐
南洋理工提出DA-BEV | 用图像特征+BEV特征的互补性解决域自适应问题
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档