标题:Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection 作者:赵友军、林佳颖、刘文胜(香港城市大学) 论文链接:https://youjunzhao.github.io/HCMA/
在3D场景中精准检测物体是自动驾驶、机器人等领域的核心技术。传统方法依赖有限标注数据,无法识别训练集外的“新物体”。近年来,视觉语言模型(如CLIP)在开放词汇的2D图像理解中表现出色,但直接应用于3D场景面临三大挑战:
在这里插入图片描述
研究团队提出HCMA框架,通过分层结构融合3D物体特征与场景上下文,实现开放词汇的3D检测。三大核心技术突破:
在ScanNet和SUN RGB-D数据集上的实验表明,HCMA显著优于现有方法:
数据集 | 方法 | mAP25(提升幅度) | 亮点案例 |
---|---|---|---|
ScanNet | HCMA | 21.77% | 椅子检测精度提升37.26% |
此前最佳CoDA | 19.32% | ||
SUN RGB-D | HCMA | 21.53% | 床检测精度达72.81% |
此前最佳方法 | 20.46% |
关键优势: • 跨数据集泛化:在ScanNet训练后,SUN RGB-D测试mAP25达13.3%,优于基线12.31%; • 大词汇量检测:在ScanNet200数据集(200类)上,mAP25达3.1%,优于此前2.39%。
HCMA框架通过分层融合3D物体与场景信息,首次实现了无需3D标注的开放词汇检测,为机器人导航、AR/VR等应用开辟新可能。未来方向包括: