Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)

SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)

作者头像
计算机视觉研究院
发布于 2022-03-04 04:11:47
发布于 2022-03-04 04:11:47
1.4K0
举报

关注并星标

从此不迷路

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文链接: https://arxiv.org/pdf/2111.14330.pdf

计算机视觉研究院专栏

作者:Edison_G

DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上展示了具有竞争力的性能但计算效率低。

01

前言

DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上展示了具有竞争力的性能但计算效率低。随后的工作Deformable DETR通过将密集注意力替换为可变形注意力来提高DETR的效率,从而实现了10倍的收敛速度和性能提升。

DETR

Deformable DETR使用多尺度特征来改善性能,然而,与DETR相比,encoder token的数量增加了20倍,并且编码器注意力的计算成本仍然是瓶颈。在我们的初步实验中,我们观察到即使只更新了一部分encoder token,检测性能也几乎不会恶化。受此观察的启发,研究者提出了稀疏DETR,它选择性地仅更新预期被解码器引用的标记,从而帮助模型有效地检测目标。

此外,研究者展示了在编码器中对所选标记应用辅助检测损失可以提高性能,同时最大限度地减少计算开销。我们验证了即使在COCO数据集上只有10%的encoder token,Sparse DETR也比可变形DETR实现了更好的性能。尽管只有encoder token被稀疏化,但与可变形DETR相比,总计算成本降低了38%,每秒帧数 (FPS) 增加了42%。

02

背景

近年来,我们见证了深度学习中目标检测的巨大进步和成功。已经提出了多种目标检测方法,但现有算法将与GT进行正匹配作为一种启发式方法,需要对近似重复预测进行非极大值抑制 (NMS) 后处理。最近Carion等人通过基于集合的目标消除了对NMS后处理的需要,引入了完全端到端的检测器DETR。训练目标采用匈牙利算法设计,既考虑分类成本,又考虑回归成本,并获得极具竞争力的性能。但是,DETR无法使用多尺度特征,例如特征金字塔网络,这些特征常用于目标检测,以提高对小目标的检测。主要原因是通过添加Transformer 架构增加了内存使用和计算。因此,它对小物体的检测能力比较差。

为了解决这个问题,有人提出了一种受可变形卷积 (deformable convolution) 启发的可变形注意力,并通过注意力模块中的关键稀疏化将二次复杂度降低为线性复杂度。通过使用可变形注意力,可变形DETR解决了DETR收敛速度慢和复杂度高的问题,使编码器能够使用多尺度特征作为输入,显着提高了检测小物体的性能。然而,使用多尺度特征作为编码器输入会使要处理的token量增加约20倍。最终,尽管对相同的token长度进行了有效的计算,但整体复杂性再次增加,使得模型推理甚至比普通的DETR更慢。

03

新框架分析

(a) DETR中的密集注意力需要二次复杂度。(b) Deformable DETR使用密钥稀疏化,因此具有线性复杂度。(c) Sparse DETR进一步使用查询稀疏化。Sparse DETR中的Attention也采用线性复杂度,但比Deformable DETR轻得多。

上图说明了如何通过预测二值化解码器交叉注意力图(DAM)来学习评分网络,其中橙色虚线箭头表示反向传播路径。左边部分展示了编码器中的前向/反向传播,右边部分展示了如何构建DAM来学习评分网络。

稀疏DETR引入了三个附加组件:(a)评分网络,(b)编码器中的辅助头,以及(c)为解码器选择前k个token的辅助头。稀疏DETR使用评分网络测量编码器token的显着性,并选择top-ρ%的token,在上图中称为(1)。在仅精炼编码器块中选定的token后,辅助头从编码器输出中选择前k个token,用作解码器对象查询。这个过程在上图中被称为(2)。此外,我们注意到每个编码器块中的附加辅助磁头在提高性能方面发挥着关键作用。仅将稀疏编码器token传递给编码器辅助头以提高效率。编码器和解码器中的所有辅助头都经过Hungarian损失训练,如Deformable DETR中所述。

04

实验及可视化

注意!

开工大吉的抽奖活动今晚23点结束,苹果无线耳机等大奖等你来拿,别忘了哦!

© The Ending

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

源代码|关注回复“SD”获取源码地址

 往期推荐 

🔗

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DETR、去噪与视觉Transformer目标检测的进化之路
自2020年DETR提出以来,基于Transformer的目标检测模型成为学界研究热点。虽然 DETR 展示了新范式的巨大潜力,但也暴露出诸如收敛慢、匹配机制不稳定等问题。随后的一系列改进方案(如Deformable DETR、DAB-DETR、DN-DETR、DINO等)正是在解决这些瓶颈。今天,我们带你一文了解Vision Transformer在目标检测上的演进逻辑,特别是“去噪机制(DN)”如何深刻改变了 Transformer 检测器的训练路径。
CoovallyAIHub
2025/06/30
1270
DETR、去噪与视觉Transformer目标检测的进化之路
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
今天分享的论文,主要提出了一个统一的多模态预训练模型,称为NÜWA,可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。针对不同场景同时覆盖语言、图像和视频,设计了3D Transformer编码器-解码器框架,不仅可以将视频作为3D数据处理,还可以分别将文本和图像作为1D和2D数据进行适配。还提出了3D Nearby Attention(3DNA)机制来考虑视觉数据的性质并降低计算复杂度。在8个下游任务上评估NÜWA。与几个强大的基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外,它还显示了令人惊讶的良好的文本零样本能力——引导图像和视频处理任务。
计算机视觉研究院
2023/08/24
3840
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
利用Transformer进行端到端的目标检测及跟踪(附源代码)
多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。
计算机视觉研究院
2023/08/24
6480
利用Transformer进行端到端的目标检测及跟踪(附源代码)
微软提出DeepNet:把Transformer提升到了1000层,目标检测领域新的希望(附源代码)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2203.00555.pdf 源代码:https://github.com/microsoft/unilm 计算机视觉研究院专栏 作者:Edison_G 提出了一种简单而有效的方法来稳定(训练和解码)极深的Transformer。具体来说,引入了一个新的归一化函数(DEEPNORM),修改Transformer中的残差连接
计算机视觉研究院
2022/03/30
7020
7 Papers & Radios | 人类首次实现高压下室温超导;可变形DETR目标检测器
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文包括人类首次实现高压下室温超导的研究,以及商汤等提出的升级版 DETR 端到端目标检测器。 目录: Principles and Practice of Explainable Machine Learning* A Survey of Deep Meta-Learning Deformable DETR: Deformable Transformers for End-to-End Object D
机器之心
2023/03/29
2610
7 Papers & Radios | 人类首次实现高压下室温超导;可变形DETR目标检测器
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
当今的目标检测器大多使用了人工设计的组件,如锚框生成、基于规则的训练目标分配、非极大值抑制后处理等。所以它们不是完全端到端的。Facebook AI 提出的 DETR【1】无需这些手工设计组件,构建了第一个完全端到端的目标检测器,实现了极具竞争力的性能。DETR 采用了一个简单的结构,即结合了卷积神经网络和 Transformer 【2】的编码器-解码器结构。研究人员利用了 Transformer 既通用又强大的关系建模能力来替代人工设计的规则,并且设计了恰当的训练信号。
机器之心
2020/10/27
7950
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
论文地址:https://arxiv.org/pdf/2103.09460.pdf
计算机视觉研究院
2022/01/25
7320
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
ECCV 2022 | 通往数据高效的Transformer目标检测器
本文介绍一下我们中稿今年 ECCV 的一项工作。对目标检测模型所需要的数据进行标注往往是十分繁重的工作,因为它要求对图像中可能存在的多个物体的位置和类别进行标注。本文旨在减少 Detection Transformer 类目标检测器对标注数据的依赖程度,提升其数据效率。
小白学视觉
2022/09/28
3570
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
YOLO虽快,但其依赖的非最大抑制(NMS)后处理拖累速度与精度。DETR架构首次实现无需NMS的“一对一”预测,却受限于计算成本。如今,RT-DETR 通过混合编码器、不确定性查询选择等创新突破实时瓶颈;RF-DETR 更进一步,成为首个在COCO上突破60 AP的实时模型,兼顾高精度与边缘部署效率。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/05/29
4580
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
选自arXiv 作者:Ting Chen等 机器之心编译 机器之心编辑部 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DETR 的性能表现。 视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度,大多数现有方法都是经过精心设计和高度定制的,在架构和损失函数的选择方面用到了大量的先验知识。 图灵奖得主 Ge
机器之心
2023/03/29
2870
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2203.09387v1.pdf 计算机视觉研究院专栏 作者:Edison_G 知识蒸馏已成功应用于图像分类。然而目标检测要复杂得多,大多数知识蒸馏方法都失败了。 01 前言 边缘检测是计算机视觉领域的一项基本任务,是视觉场景识别和理解的重要预处理操作。在常规模型中,生成的边缘图像模糊不清,边缘线也很粗,这通常需要使用非
计算机视觉研究院
2022/04/13
3470
工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
论文: Efficient DETR: Improving End-to-End Object Detector with Dense Prior
VincentLee
2024/08/16
1650
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
论文: Deformable DETR: Deformable Transformers for End-to-End Object Detection
VincentLee
2024/08/15
2280
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割。
CV君
2021/09/27
1.6K0
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
Transformer 在 NLP 任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer 正在改变计算机视觉的格局,尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标检测的、端到端的学习系统,而 vision transformer 是第一个完全基于 transformer 的图像分类架构。在本文中,一篇被 ICLR 2022 接收的匿名论文集成了视觉和检测 Transformer (Vision and Detection Transformer,ViDT) 来构建有效且高效的目标检测器。
机器之心
2022/02/24
6040
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
Transformer在小目标检测上的应用
小目标检测(Small Object Detection, SOD)作为通用目标检测的一个子领域,专注于对小尺寸目标的检测,在监控、无人机场景分析、行人检测、自动驾驶中的交通标志检测等各种场景中都具有重要的理论和现实意义。
不去幼儿园
2024/12/03
5450
Transformer在小目标检测上的应用
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
近年来,严重疾病的全球发病率如急性白血病等显著上升。这些疾病的初级诊断工具是常规血液测试,医生需要使用显微镜检查患者的血涂片显微图像。诊断基于白细胞的不同类型和比例。自动化白细胞分类通常作为血液学分析技术,用于对血液图像中的白细胞进行分类。这种技术通常通过检查形态、大小、色素和核仁特征等属性,准确地划分不同的白细胞类型。然而,白细胞分类模型的应用通常需要经验丰富的医生手动从患者的血液显微图像中分离白细胞,这是一个劳动密集且耗时的过程,容易出错。
集智书童公众号
2024/01/10
6.8K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
论文: Rethinking Transformer-based Set Prediction for Object Detection
VincentLee
2024/08/15
1180
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
最新最全 | 视觉 Transformer 综述
快卷起来!还怕改进想不到idea吗?中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!
公众号机器学习与AI生成创作
2021/12/02
1.1K0
最新最全 | 视觉 Transformer 综述
推荐阅读
DETR、去噪与视觉Transformer目标检测的进化之路
1270
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
3840
利用Transformer进行端到端的目标检测及跟踪(附源代码)
6480
微软提出DeepNet:把Transformer提升到了1000层,目标检测领域新的希望(附源代码)
7020
7 Papers & Radios | 人类首次实现高压下室温超导;可变形DETR目标检测器
2610
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
7950
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
7320
ECCV 2022 | 通往数据高效的Transformer目标检测器
3570
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
4580
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
2870
工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)
3470
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
1650
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
2280
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
1.6K0
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
6040
Transformer在小目标检测上的应用
5450
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
6.8K0
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
1180
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
1.8K0
最新最全 | 视觉 Transformer 综述
1.1K0
相关推荐
DETR、去噪与视觉Transformer目标检测的进化之路
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档