作者:Deng-Ping Fan,Zheng Lin,Jia-Xing Zhao,Yun Liu,Zhao Zhang,Qibin Hou,Menglong Zhu,Ming-Ming Cheng
摘要:近年来已经探索了使用RGB-D信息进行显着物体检测。然而,在利用RGB-D对现实世界人类活动场景进行显着物体检测建模方面花费的努力相对较少。在这项工作中,我们通过对RGB-D显着对象检测做出以下贡献来填补空白。首先,我们仔细收集一个新的显着人(SIP)数据集,其中包含1K高分辨率图像,涵盖各种视点,姿势,遮挡,光照和背景的各种真实场景。其次,我们进行了大规模,迄今为止最全面的基准比较现代方法,该方法在该领域长期缺失,可作为未来研究的基准。我们系统地总结了31种流行模型,在7个数据集上评估了17种最先进的方法,总共约91K图像。第三,我们提出了一种简单的基线架构,称为Deep Depth-Depurator Network(D3Net)。它由深度解析器单元和特征学习模块组成,分别执行初始低质量深度图过滤和跨模态特征学习。这些组件形成嵌套结构,并且经过精心设计以便共同学习。 D3Net超过了所考虑的五个指标中任何先前竞争者的表现,因此成为推进研究前沿的强大基线。我们还演示了D3Net可用于从真实场景中有效地提取显着人物面具,从而在单个GPU上实现20 fps的有效背景改变书籍封面应用。所有显着性图,我们的新SIP数据集,基线模型和评估工具都可通过此this https URL公开获取。
原文标题:Rethinking RGB-D Salient Object Detection: Models, Datasets, and Large-Scale Benchmarks
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。