Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD

提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD

作者头像
Color Space
发布于 2024-07-26 06:28:23
发布于 2024-07-26 06:28:23
49000
代码可运行
举报
运行总次数:0
代码可运行

本文主要分成两个部分。首先,我们将深入研究RT-DETR和YOLO-WORLD模型。然后,我们将继续讨论基于补丁的技术,如SAHI和其他类似方法。最后,我将总结一下检测效果。

现在我们先来谈谈 RT-DETR 以及它为什么如此酷!

RT-DETR:实时端到端物体检测器

lyuwenyu/RT-DETR:[CVPR 2024] 官方 RT-DETR (RTDETR paddle pytorch),实时检测变压器,DETR 在实时物体检测上击败 YOLO。🔥 🔥 🔥

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://github.com/lyuwenyu/RT-DETR?tab=readme-ov-file

创建 RT-DETR 的研究人员希望开发一种超快速的物体检测系统,能够非常准确地识别图像中的物体。他们研究了两种主要方法:

1. DETR模型——这些模型非常酷,因为它们可以检测物体而不需要非最大抑制等一系列额外步骤。但问题是它们的计算成本很高,因此运行速度很慢。

2. YOLO模型——以速度超快而闻名,但它们并不总是能获得最好的准确度。

因此,RT-DETR 团队想出了一些巧妙的想法,制作了一个基于 DETR 的模型,可以在速度和准确性上击败 YOLO :

  • 他们通过分离不同尺度的特征处理,使模型的编码器部分更加高效。这让它运行得更快。
  • 他们还找到了一种巧妙的方法来选择输入到模型解码器部分的初始对象猜测。这提高了准确率。
  • 另一个巧妙之处在于 RT-DETR 让您通过更改一个设置轻松调整速度,而无需重新训练整个模型。

YOLO-World:零样本物体检测

AILab-CVC/YOLO-World:[CVPR 2024] 实时开放词汇对象检测

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://github.com/AILab-CVC/YOLO-World

测试图像

无人机拍摄龙眼试验图像

使用YOLO-WORLD预测(不包括Patch-Based)

模型:yolov8x-worldv2.pt

预测结果跟原图一样:

使用YOLO-WORLD预测(使用SAHI)

模型:yolov8x-worldv2.pt(相同模型)

预测结果有改善,但还是很糟糕:

预测使用 RTDETR 和 RTDETR Patch-Based

基本RTDETR推理

RTDETR Patch-Based的推理(效果最佳)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV与AI深度学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力,果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能,开发了一个自定义数据集,其中包括单类(绿色水果)和多类(遮挡和非遮挡绿色水果)注释。RF-DETR目标检测模型利用 DINOv2 骨干和可变形注意力机制,在全局上下文建模方面表现出色,在识别部分遮挡或视觉模糊的绿色水果方面尤其有效。与此相反,YOLOv12 模型采用了基于CNN的注意力机制来加强局部特征提取,优化了计算效率和边缘部署的适用性。在单类检测场景中,RF-DETR的平均精度(mAP@50)最高,达到0.9464,显示了其在杂乱场景中准确定位绿色水果的强大能力。尽管YOLOv12N的mAP@50:95 达到了0.7620的最高值,但RF-DETR目标检测模型在管理复杂空间场景方面的表现始终优于YOLOv12N。在多类检测中,RF-DETR以0.8298的mAP@50再次领先,表明其在区分遮挡和非遮挡水果方面的有效性,而YOLOv12L则以0.6622高居mAP@50:95 指标榜首,表明其在详细遮挡条件下的分类能力更胜一筹。对模型训练动态的分析表明,RF-DETR的收敛速度很快,尤其是在单类场景中,不到10个epoch就达到了平稳状态,这凸显了基于transformer-based的架构对动态视觉数据的效率和适应性。这些结果证实了RF-DETR适用于对准确性要求极高的农业任务,而YOLOv12仍然是对速度敏感的部署的理想选择。
CoovallyAIHub
2025/04/23
2440
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
无人机航拍技术已广泛应用于城市规划、交通监控、灾害评估等领域。通过自动分析航拍图像中的目标(如车辆、行人、建筑物),我们可以快速获取地理信息、监测城市动态。然而,现有的检测算法在复杂环境下的小目标识别和准确率方面存在不足。针对这一问题,本文提出了一种基于YOLOv8的改进模型,即MPE-YOLO。
CoovallyAIHub
2025/04/29
3110
复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
RT-DETR全解析:超越 YOLO,实时物体检测更快更精准(附代码)
近年来,物体检测技术在许多领域取得了显著进展,如视频监控、自动驾驶、智能家居等。传统的物体检测模型,如YOLO(You Only Look Once)系列,已经在实时检测任务中得到了广泛应用,但仍然存在一些限制,比如速度与精度的平衡问题。
CoovallyAIHub
2025/01/09
2.8K0
RT-DETR全解析:超越 YOLO,实时物体检测更快更精准(附代码)
YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理
百度RT-DETR概述。RT-DETR模型架构图显示骨干{S3、S4、S5}的最后三个阶段作为编码器的输入。高效的混合编码器通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转换为图像特征序列。IoU感知查询选择用于选择固定数量的图像特征以用作解码器的初始对象查询。最后,具有辅助预测头的解码器迭代地优化对象查询,以生成框和置信度分数(源)。
集智书童公众号
2023/09/04
2.8K0
YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理
基于YOLO-World零样本实现自定义对象检测模型从生成到部署推理
最新版本的YOLOv8框架已经集成支持YOLO-World模型,只要运行下面的命令行:
OpenCV学堂
2024/04/15
1.6K1
基于YOLO-World零样本实现自定义对象检测模型从生成到部署推理
RT-DETR优化改进:轻量级Backbone改进 | 支持Paddle轻量级 rtdetr-r18、rtdetr-r34、rtdetr-r50、rtdet
本文独家改进: 支持百度飞浆resnet各个版本, rtdetr-r18、rtdetr-r34、rtdetr-r50、rtdetr-r101等
AI小怪兽
2023/11/17
5.3K0
CVPR2024 | YOLO-World 检测一切对象模型
YOLO-World模型引入了先进的实时 UltralyticsYOLOv8对象检测模型,成为了开放词汇检测任务的最新SOTA实时方法。YOLO-World模型可根据提示与描述性文本实现检测图像中的任何物体。YOLO-World 可大幅降低计算要求,同时具有杰出的性能指标,是新一代的开放动词对象检测模型。
OpenCV学堂
2024/05/11
2.6K0
CVPR2024 | YOLO-World 检测一切对象模型
RT-DETR手把手教程,注意力机制如何添加在网络的不同位置进行创新优化
本文独家改进:本文首先复现了将EMA引入到RT-DETR中,并跟不同模块进行结合创新;1)Rep C3结合;2)直接作为注意力机制放在网络不同位置;3)高效和HGBlock结合;
AI小怪兽
2023/11/22
1.6K0
【论文复现】实时开放词汇目标检测
论文:YOLO-World: Real-Time Open-Vocabulary Object Detection
Eternity._
2024/11/30
6610
【论文复现】实时开放词汇目标检测
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
大家好,今天要给大家介绍的是最新发布的目标检测模型——YOLOv12。相信关注计算机视觉和深度学习的小伙伴们都已经听说过YOLO系列,作为目标检测领域的“老牌明星”,YOLO每次更新都会带来不少惊喜。那么,新鲜出炉的YOLOv12,它到底有哪些亮点呢?今天,就让我们一起来深入了解一下!
CoovallyAIHub
2025/02/20
7500
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。 在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度上都超过了许多最先进的方法。此外,经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。
集智书童公众号
2024/02/01
4.2K0
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
微信识图之面向多源异构数据的检测器设计
作者:breezecheng、morajiang、lyleleeli,腾讯 WXG 应用研究员 微信识图已经在微信的扫一扫识物,微信聊天/朋友圈/公众号长按图片搜一搜等场景上线,并且从最初的电商类目(鞋子、箱包、美妆、服装、家电、玩具、图书、食品、珠宝、家具等),扩展到更加丰富的万物场景,囊括了植物、动物、汽车、红酒、地标、菜品、名画、商标、作业以及其他通用场景。在算法架构上,微信识图主要由三大核心步骤组成,即为主体检测+子类目预测+子类目细粒度同款检索,开发一个高性能的检测器对于前两个步骤至关重要
腾讯技术工程官方号
2021/03/25
1.1K0
Yolo系列的高效更精确的目标检测框架(附源代码)
点击上方蓝字关注我们 计算机视觉研究院专栏 作者:Edison_G YOLOX在YOLO系列的基础上做了许多有意思的工作,其主要贡献在于:在YOLOV3的基础上,引入了“Decoupled Head”,“Data Augmentation”,“Anchor Free” 和“SimOTA样本匹配”的方法,构建了一种anchor-free的端到端目标检测框架,并且达到了顶级的检测水平。 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 关注并星标 从此不迷路 计算机视觉研究
计算机视觉研究院
2022/08/26
6940
Yolo系列的高效更精确的目标检测框架(附源代码)
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
近年来,Transformer架构以雷霆之势席卷计算机视觉领域,从ViT到DETR再到Grounding DINO,各类Transformer模型频频刷新检测与分割性能的新高。在这样的大背景下,卷积神经网络(CNN)体系似乎逐渐退居二线。
CoovallyAIHub
2025/04/29
1850
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
yolo-world 源码解析(五)
ApacheCN_飞龙
2024/03/09
5330
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
实时目标检测一直是计算机视觉研究领域的一个重点,旨在在低延迟下准确预测图像中物体的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶,机器人导航,物体跟踪等。近年来,研究行人一直致力于设计基于CNN的目标检测器以实现实时检测。其中,YOLOs因其性能和效率之间的巧妙平衡而越来越受欢迎。YOLOs的检测流程包括两部分:模型前向过程和NMS后处理。然而,这两者仍存在不足,导致次优的准确度-延迟边界。
集智书童公众号
2024/05/28
3.6K0
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/08/13
3120
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YOLO系列一直是实时目标检测领域的领先框架,不断提高速度和准确性之间的平衡。然而,将注意力机制整合到YOLO中一直具有挑战性,因为它们的计算开销很高。YOLOv12引入了一种新方法,在保持实时性能的同时,成功地集成了基于注意力的增强功能。本文全面回顾了YOLOv12在架构上的创新,包括用于提高计算效率的区域注意(Area Attention)、用于改进特征聚合的剩余高效层聚合网络(Residual Efficient Layer Aggregation Networks)和用于优化内存访问的闪存注意(FlashAttention)。此外,我们还将YOLOv12与之前的YOLO版本和竞争对象检测器进行了比较,分析了其在准确性、推理速度和计算效率方面的改进。通过分析,我们展示了YOLOv12如何通过改进延迟与准确性的权衡和优化计算资源来推进实时对象检测。
CoovallyAIHub
2025/04/25
4130
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
相关研究提出一种基于 YOLO 的水下图像目标检测方法,引入一种改进的无锚点 YOLO 检测方法,将检测特征与识别特征分离,以减少特征间的相互干扰,提高检测精度。还提出一种基于 Retinex 的图像增强算法用于水下图像增强,并通过在水下数据集上的相关实验,验证了增强型 YOLO 检测方法的有效性。
计算机视觉研究院
2025/02/07
3340
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
YOLO 目标检测实战项目『原理篇』
在目标检测中,IoU 为预测框 (Prediction) 和真实框 (Ground truth) 的交并比。如下图所示,在关于小猫的目标检测中,紫线边框为预测框 (Prediction),红线边框为真实框 (Ground truth)。
机器视觉CV
2019/11/14
3.9K1
YOLO 目标检测实战项目『原理篇』
推荐阅读
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
2440
复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
3110
RT-DETR全解析:超越 YOLO,实时物体检测更快更精准(附代码)
2.8K0
YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理
2.8K0
基于YOLO-World零样本实现自定义对象检测模型从生成到部署推理
1.6K1
RT-DETR优化改进:轻量级Backbone改进 | 支持Paddle轻量级 rtdetr-r18、rtdetr-r34、rtdetr-r50、rtdet
5.3K0
CVPR2024 | YOLO-World 检测一切对象模型
2.6K0
RT-DETR手把手教程,注意力机制如何添加在网络的不同位置进行创新优化
1.6K0
【论文复现】实时开放词汇目标检测
6610
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
7500
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
4.2K0
微信识图之面向多源异构数据的检测器设计
1.1K0
Yolo系列的高效更精确的目标检测框架(附源代码)
6940
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
1850
yolo-world 源码解析(五)
5330
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
3.6K0
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
3120
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
4130
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
3340
YOLO 目标检测实战项目『原理篇』
3.9K1
相关推荐
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验