Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >YOLOe问世,实时观察一切,统一开放物体检测和分割

YOLOe问世,实时观察一切,统一开放物体检测和分割

作者头像
机器之心
发布于 2025-03-13 13:29:04
发布于 2025-03-13 13:29:04
1900
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。

自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only Look Once)以来,这项突破性的目标检测技术就像为机器装上了「闪电之眼」,凭借单次推理的实时性能刷新了计算机视觉的认知边界。

传统的 YOLO 系列如同我们人工效准的精密仪器,其识别能力被严格框定在预定义的类别目录之中,每个检测框的背后,都需要工程师手动输入认知词典。这种预设规则在开放场景中限制了视觉模型的灵活性。

但是在万物互联的时代,行业迫切需要更接近人类视觉的认知范式 —— 不需要预先设定先验知识,却能通过多模态提示理解大千世界。那么如何通过视觉模型来实现这一目标呢?

近来,研究者们积极探索让模型泛化至开放提示的方法,力图让模型拥有如同人眼般的强大能力。不管是面对文本提示、视觉提示,甚至在无提示的情况下,模型都能借助区域级视觉语言预训练,实现对任意类别的精准识别。

image.png
image.png
  • 论文标题:YOLOE:Real-Time Seeing Anything
  • 论文地址:https://arxiv.org/abs/2503.07465
  • 技术展示页:https://github.com/THU-MIG/yoloe?tab=readme-ov-file#demo

YOLOE 的设计思路

在 YOLO 的基础之上,YOLOE 通过 RepRTA 支持文本提示、通过 SAVPE 支持视觉提示以及使用 LRPC 支持无提示场景。

f2.png
f2.png

图 1.YOLOE 的架构

如图 1 所示,YOLOE 采用了典型的 YOLO 架构,包括骨干、PAN、回归头、分割头和对象嵌入头。骨干和 PAN 为图像提取多尺度特征。对于每个锚点,回归头预测用于检测的边界框,分割头生成用于分割的原型和掩码系数。对象嵌入头遵循 YOLO 中分类头的结构,只是最后一个 1× 卷积层的输出通道数从闭集场景中的类数更改为嵌入维度。同时,给定文本和视觉提示,YOLOE 分别使用 RepRTA 和 SAVPE 将它们编码为规范化的提示嵌入 P。

在开放集场景中,文本和对象嵌入之间的对齐决定了识别类别的准确性。先前的研究通常引入复杂的跨模态融合来改进视觉文本表示以实现更好的对齐。然而,这些方法会产生大量的计算开销。鉴于此,作者提出了可重新参数化的区域文本对齐 (RepRTA) 策略,通过可重新参数化的轻量级辅助网络在训练过程中改进预训练的文本嵌入。文本和锚点对象嵌入之间的对齐可以在零推理和传输成本的情况下得到增强。

接下来是语义激活的视觉提示编码器。为了生成视觉提示嵌入,先前的工作通常采用 Transformer 设计,例如可变形注意或附加 CLIP 视觉编码器。然而,由于运算符复杂或计算要求高,这些方法在部署和效率方面带来了挑战。

考虑到这一点,研究人员引入了语义激活的视觉提示编码器(SAVPE)来高效处理视觉提示。它具有两个解耦的轻量级分支:(1) 语义分支在 D 通道中输出与提示无关的语义特征,而无需融合视觉提示的开销;(2) 激活分支通过在低成本下在更少的通道中将视觉提示与图像特征交互来产生分组的提示感知权重。然后,它们的聚合会在最小复杂度下产生信息丰富的提示嵌入。

在没有明确指导的无提示场景中,模型需要识别图像中所有有名称的物体。先前的研究通常将这种设置表述为生成问题,使用语言模型为密集的发现物体生成类别。然而,其中语言模型远不能满足高效率要求。YOLOE 将这种设置表述为检索问题并提出惰性区域提示对比(Lazy Region-Prompt Contrast,LRPC)策略。它以高效的方式从内置的大型词汇表中惰性检索带有物体的锚点的类别名称。这种范例对语言模型的依赖为零,同时具有良好的效率和性能。

实验结果

那么在实验测试中,YOLOE 的效果如何呢?

作者将 YOLOE 基于 YOLOv8 和 YOLOv11 架构开展了实验,并提供了不同的模型尺度。如下表所示,对于 LVIS 上的检测,YOLOE 在不同模型尺度上表现出效率和零样本性能之间的良好平衡。

表 1. LVIS 上的零样本检测评估

实验结果表明 YOLOE 的训练时间少于其他对比模型,比 YOLO-Worldv2 快了近 3 倍。同时 YOLOE-v8-S/M/L 的性能比 YOLOv8-Worldv2-S /M/L 分别高出 3.5/0.2/0.4AP,在 T4 和 iPhone 12 上的推理速度分别提高 1.4 倍 / 1.3 倍 / 1.3 倍和 1.3 倍 / 1.2 倍 / 1.2 倍。

不过在 Ap 指标上,与 YOLO - Worldv2 相比,YOLOE-v8-M/L 稍显逊色。进一步分析发现,这种性能差距主要是由于 YOLOE 创新性地在一个模型中集成了检测和分割功能。

作者还通过以下角度验证了模型和方法的有效性:

  • 分割评估

表 2. LVIS 上的分割评估

  • 无提示词评估

表 3. LVIS 上的无提示词评估

  • 可迁移性评估

表 4. 在 COCO 上的可迁移性测试,测试了两种微调策略,线性探测和完全调整

这些结果充分证明,YOLOE 拥有强大的功能和高效率,适用于各种提示方式,可以实时看到任何东西。

image.png
image.png

此外,研究人员对 YOLOE 开展了四种场景的可视化分析:

  • 图 (a):在 LVIS 上进行零样本推理,以类别名称作为文本提示
  • 图 (b):可输入任意文本作为提示
  • 图 (c):能绘制视觉线索作为提示
  • 图 (d):无明确提示,模型自动识别所有对象

结果显示,YOLOE 在这些不同场景下均表现出色,能准确检测和分割各类物体,进一步体现了其在多种应用中的有效性与实用性。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
前不久,清华大学研究团队继YOLOv10后再次推出全新模型YOLOE(Real-Time Seeing Anything)。
CoovallyAIHub
2025/03/28
4980
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
从2015年YOLOv1首次实现实时检测,到2024年YOLOv10优化效率,YOLO系列始终是目标检测领域的标杆。但传统YOLO如同戴着"类别镣铐"的观察者——只能识别预先定义的物体。当面对未知类别或复杂交互场景时,这种局限性暴露无遗。
AI浩
2025/03/17
1.3K0
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
传统的目标检测模型受到封闭数据集的限制,只能检测训练过程中遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合,它们引入了大量过度推理,而且仍然受到预定义词汇的限制,使它们无法有效地识别开放世界场景中的未知物体。在这项工作中,我们引入了通用开放世界目标检测(Uni-OWD),这是一种将开放词汇和开放世界目标检测任务统一起来的新模式。为了解决这种环境下的难题,我们提出了YOLO-UniOW模型,这是一种新颖的模型,可提高效率、通用性和性能。YOLO-UniOW结合了适应性决策学习(Adap-tive Decision Learning),以CLIP潜在空间中的轻量级对齐取代了计算昂贵的跨模态融合,在不影响泛化的情况下实现了高效检测。此外,我们还设计了一种通配符学习策略,可将超出分布范围的对象检测为 “未知”,同时无需增量学习即可实现动态词汇扩展。这种设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。广泛的实验验证了YOLO-UniOW的优越性,它在LVIS上达到了34.6 AP和30.0 APr,平均速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上树立了标杆,展示了其在开放世界目标检测方面无与伦比的性能。
CoovallyAIHub
2025/03/27
3180
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。 在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度上都超过了许多最先进的方法。此外,经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。
集智书童公众号
2024/02/01
4.5K0
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
【论文复现】实时开放词汇目标检测
论文:YOLO-World: Real-Time Open-Vocabulary Object Detection
Eternity._
2024/11/30
1K0
【论文复现】实时开放词汇目标检测
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
近年来,Transformer架构以雷霆之势席卷计算机视觉领域,从ViT到DETR再到Grounding DINO,各类Transformer模型频频刷新检测与分割性能的新高。在这样的大背景下,卷积神经网络(CNN)体系似乎逐渐退居二线。
CoovallyAIHub
2025/04/29
5000
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
在实时检测、复杂场景分析、零样本分割需求并存的2025年,YOLO-NAS、DETR、SAM三大架构各领风骚。本文深入剖析三者核心优势、典型短板与最佳适用场景,提供清晰的选型决策指南,并揭示未来混合架构协同互操作的趋势——助你精准匹配项目需求,避免选型陷阱。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/16
5330
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
本文系统回顾了YOLO在多模态目标检测领域的最新进展,重点梳理了当前主流研究中如何结合红外、深度图、文本等多源信息,解决单一RGB模态在弱光、遮挡、低对比等复杂环境下的感知瓶颈。文章围绕轻量化多模态融合、动态模态选择机制、开放词汇检测等核心方向,分析了如MM-YOLO、LMS-YOLO、YOLO-World等代表性工作所引入的门控机制、模态对齐策略与跨模态语义引导方法,展现了YOLO从单模态检测器向多模态感知平台的演进路径。
CoovallyAIHub
2025/07/25
980
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YOLO系列一直是实时目标检测领域的领先框架,不断提高速度和准确性之间的平衡。然而,将注意力机制整合到YOLO中一直具有挑战性,因为它们的计算开销很高。YOLOv12引入了一种新方法,在保持实时性能的同时,成功地集成了基于注意力的增强功能。本文全面回顾了YOLOv12在架构上的创新,包括用于提高计算效率的区域注意(Area Attention)、用于改进特征聚合的剩余高效层聚合网络(Residual Efficient Layer Aggregation Networks)和用于优化内存访问的闪存注意(FlashAttention)。此外,我们还将YOLOv12与之前的YOLO版本和竞争对象检测器进行了比较,分析了其在准确性、推理速度和计算效率方面的改进。通过分析,我们展示了YOLOv12如何通过改进延迟与准确性的权衡和优化计算资源来推进实时对象检测。
CoovallyAIHub
2025/04/25
7570
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
重磅更新!yolo v8.3.99发布:全球首个YOLOE开放词汇模型,支持文本/视觉提示!
传统YOLO需预先定义类别(如“猫、狗”),而YOLOE可动态响应任意文本或视觉输入:
福大大架构师每日一题
2025/04/02
2910
重磅更新!yolo v8.3.99发布:全球首个YOLOE开放词汇模型,支持文本/视觉提示!
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.7K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。
OpenCV学堂
2023/12/11
8730
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!
【新智元导读】你肯定很少见到这样的论文,全文像闲聊一样,不愧是YOLO的发明者。物体检测领域的经典论文YOLO(You Only Look Once)的两位作者,华盛顿大学的Joseph Redmon和Ali Farhadi最新提出了YOLO的第三版改进YOLO v3,一系列设计改进,使得新模型性能更好,速度更快。达到相似的性能时,相比SSD,速度提高3倍;相比RetinaNet,速度提高3.8倍。 代码地址:https://pjreddie.com/yolo/ 论文地址:https://pjreddie.
新智元
2018/03/28
1.4K0
【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
论文: LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction
VincentLee
2024/10/22
2840
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
Video-LLava与YOLOv8联手,实现更精准的检测 !
智能交通系统(ITS)在智能城市范式中得到了显著的普及。ITS的关键组件之一是交通目标检测,这项技术利用计算机视觉和图像处理来识别数字图像中的特定物体。
未来先知
2024/10/25
3850
Video-LLava与YOLOv8联手,实现更精准的检测 !
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/08/13
4480
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
在预训练之后是一个微调阶段,利用少量高分辨率样本进一步提高检测性能。借助这些有效的设计,DetCLIPv3展示了卓越的开词汇检测性能,例如,作者的Swin-T Backbone 模型在LVIS minival基准上取得了显著的47.0零样本固定AP,分别优于GLIPv2、GroundingDINO和DetCLIPv2 18.0/19.6/6.6 AP。DetCLIPv3在VG数据集上的密集字幕任务也取得了先进的19.7 AP,展示了其强大的生成能力。
集智书童公众号
2024/04/30
1.3K0
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
本文分析 YOLO11 在车辆检测上的性能。相比前代(YOLOv8/v10),YOLO11 通过架构改进提升了速度、精度和在复杂环境(小目标、遮挡)下的鲁棒性。使用多车型数据集测试表明,其精度(mAP)、召回率等指标更优,同时保持实时推理速度。该模型在检测复杂形状车辆方面进步显著,对自动驾驶和交通监控有应用潜力。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/20
3110
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
推进自动驾驶车辆智能:基于深度学习和多模态LLM的交通标志识别与鲁棒车道检测
为提升自动驾驶车辆在复杂环境下的感知可靠性,本文提出融合深度学习与多模态大语言模型(MLLM)的综合方案。研究评估了ResNet-50、YOLOv8、RT-DETR在交通标志识别上的优异表现(最高99.8%准确率)。针对车道检测,提出基于CNN分割并辅以多项式拟合的方法,在良好条件下精度高。创新性引入轻量级MLLM框架,通过小数据集指令调优(无需预训练),显著增强在复杂车道、不良天气(如夜间93.0%、雨天推理88.4%)及道路退化条件下的车道检测鲁棒性与推理能力。该框架整体提升了感知可靠性,助力安全自动驾驶。
CoovallyAIHub
2025/06/30
1130
推进自动驾驶车辆智能:基于深度学习和多模态LLM的交通标志识别与鲁棒车道检测
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
https://www.mdpi.com/1424-8220/25/7/2193 
AI浩
2025/06/19
2920
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
推荐阅读
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
4980
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
1.3K0
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
3180
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
4.5K0
【论文复现】实时开放词汇目标检测
1K0
【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?
5000
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
5330
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
980
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
7570
重磅更新!yolo v8.3.99发布:全球首个YOLOE开放词汇模型,支持文本/视觉提示!
2910
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.7K0
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
8730
【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!
1.4K0
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
2840
Video-LLava与YOLOv8联手,实现更精准的检测 !
3850
【人工智能】Transformers之Pipeline(九):物体检测(object-detection)
4480
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
1.3K0
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
3110
推进自动驾驶车辆智能:基于深度学习和多模态LLM的交通标志识别与鲁棒车道检测
1130
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
2920
相关推荐
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档