前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【人工智能】Transformers之Pipeline(九):物体检测(object-detection)

【人工智能】Transformers之Pipeline(九):物体检测(object-detection)

作者头像
LDG_AGI
发布于 2024-08-13 06:29:32
发布于 2024-08-13 06:29:32
28400
代码可运行
举报
运行总次数:0
代码可运行

一、引言

pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型

今天介绍CV计算机视觉的第五篇,物体检测(object-detection),在huggingface库内有2400个物体检测模型。

二、物体检测(object-detection)

2.1 概述

物体检测是计算机视觉中的经典问题之一,其任务是用框去标出图像中物体的位置,并给出物体的类别。从传统的人工设计特征加浅层分类器的框架,到基于深度学习的端到端的检测框架,物体检测一步步变得愈加成熟。

2.2 技术原理

物体检测(object-detection)的默认模型为facebook/detr-resnet-50,全称为:DEtection TRansformer(DETR)-resnet-50。其中有2个要素:

  • DEtection TRansformer (DETR):于2020年5月由Facebook AI发布于《End-to-End Object Detection with Transformers》,提出了一种基于transformer的端到端目标检测方法,相比于YOLO具有更高的准确性,但速度不及YOLO,可以应用于医疗影像等不追求实时性的目标检测场景,对于追求实时性的目标检测场景,还是得YOLO,关于YOLOv10,可以看我之前的文章
  • ResNet-50:ResNet-50是一种深度残差网络(Residual Network),是ResNet系列中的一种经典模型。它由微软研究院的Kaiming He等人于2015年提出,被广泛应用于计算机视觉任务,如图像分类、目标检测和图像分割等。ResNet-50是一种迁移学习模型,迁移学习的核心思想是将源领域的知识迁移到目标领域中,可以采用样本迁移、特征迁移、模型迁移、关系迁移等手段。

DEtection TRansformer(DETR)主体结构:

由三个主要部分组成:

  • 用于特征提取的CNN后端(ResNet)
  • transformer编码器-解码器
  • 用于最终检测预测的前馈网络(FFN)。

后端处理输入图像并生成激活图。transformer编码器降低通道维度并应用多头自注意力和前馈网络。transformer解码器使用N个物体嵌入的并行解码,并独立预测箱子坐标和类别标签,使用物体查询。DETR利用成对关系,从整个图像上下文中受益,共同推理所有物体。

2.3 应用场景

  • 安防监控:通过分析视频流,实时识别异常行为、入侵检测、人群密度控制等。
  • 自动驾驶:识别道路中的车辆、行人、交通标志,确保行车安全。
  • 零售业:库存管理,顾客行为分析,自动结账系统中的商品识别。
  • 医疗影像分析:辅助医生识别病灶,如肿瘤、细胞结构等。
  • 农业:作物健康监测,病虫害检测。
  • 无人机应用:地形分析、目标追踪。
  • 社交媒体和相机应用:人脸识别、物体标签生成,增强用户体验。

2.4 pipeline参数

2.4.1 pipeline对象实例化参数

  • modelPreTrainedModelTFPreTrainedModel)— 管道将使用其进行预测的模型。 对于 PyTorch,这需要从PreTrainedModel继承;对于 TensorFlow,这需要从TFPreTrainedModel继承。
  • image_processor ( BaseImageProcessor ) — 管道将使用的图像处理器来为模型编码数据。此对象继承自 BaseImageProcessor
  • modelcardstrModelCard可选) — 属于此管道模型的模型卡。
  • frameworkstr可选)— 要使用的框架,"pt"适用于 PyTorch 或"tf"TensorFlow。必须安装指定的框架。
  • taskstr,默认为"")— 管道的任务标识符。
  • num_workersint可选,默认为 8)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的工作者数量。
  • batch_sizeint可选,默认为 1)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的批次的大小,对于推理来说,这并不总是有益的,请阅读使用管道进行批处理
  • args_parserArgumentHandler可选) - 引用负责解析提供的管道参数的对象。
  • deviceint可选,默认为 -1)— CPU/GPU 支持的设备序号。将其设置为 -1 将利用 CPU,设置为正数将在关联的 CUDA 设备 ID 上运行模型。您可以传递本机torch.devicestr
  • torch_dtypestrtorch.dtype可选) - 直接发送model_kwargs(只是一种更简单的快捷方式)以使用此模型的可用精度(torch.float16,,torch.bfloat16...或"auto"
  • binary_outputbool可选,默认为False)——标志指示管道的输出是否应以序列化格式(即 pickle)或原始输出数据(例如文本)进行。
2.4.2 pipeline对象使用参数

  • imagesstrList[str]PIL.ImageList[PIL.Image]——管道处理三种类型的图像:
    • 包含指向图像的 HTTP(S) 链接的字符串
    • 包含图像本地路径的字符串
    • 直接在 PIL 中加载的图像

    管道可以接受单张图片或一批图片。一批图片中的图片必须全部采用相同的格式:全部为 HTTP(S) 链接、全部为本地路径或全部为 PIL 图片。

  • thresholdfloat可选,默认为 0.9)— 用于过滤预测掩码的概率阈值。
  • timeout可选float,默认为 None)— 等待从网络获取图像的最长时间(以秒为单位)。如果为 None,则不设置超时,并且调用可能会永远阻塞。

2.4 pipeline实战

识别http链接中的物品

采用pipeline代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"

from transformers import pipeline
detector = pipeline(task="object-detection",model="facebook/detr-resnet-50")
output = detector("http://images.cocodataset.org/val2017/000000039769.jpg")
print(output)
"""
[{'score': 0.9982202649116516, 'label': 'remote', 'box': {'xmin': 40, 'ymin': 70, 'xmax': 175, 'ymax': 117}}, {'score': 0.9960021376609802, 'label': 'remote', 'box': {'xmin': 333, 'ymin': 72, 'xmax': 368, 'ymax': 187}}, {'score': 0.9954745173454285, 'label': 'couch', 'box': {'xmin': 0, 'ymin': 1, 'xmax': 639, 'ymax': 473}}, {'score': 0.99880051612854, 'label': 'cat', 'box': {'xmin': 13, 'ymin': 52, 'xmax': 314, 'ymax': 470}}, {'score': 0.9986782670021057, 'label': 'cat', 'box': {'xmin': 345, 'ymin': 23, 'xmax': 640, 'ymax': 368}}]
"""

执行后,自动下载模型文件,并生成score及物体检测的box坐标:

2.5 模型排名

在huggingface上,我们将物体检测(object-detection)模型按下载量从高到低排序,可以发现除了table表格相关的模型,排在第一的就是本文中介绍的detr-resnet-50和yolov10x,关于yolov10x,可以阅读我之前专门介绍yolov10的文章

三、总结

本文对transformers之pipeline的物体检测(object-detection)从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍,读者可以基于pipeline使用文中的2行代码极简的使用计算机视觉中的物体检测(object-detection)模型。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/09/03
3380
【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)
【人工智能】Transformers之Pipeline(七):图像分割(image-segmentation)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/08/13
5060
【人工智能】Transformers之Pipeline(七):图像分割(image-segmentation)
RT-DETR全解析:超越 YOLO,实时物体检测更快更精准(附代码)
近年来,物体检测技术在许多领域取得了显著进展,如视频监控、自动驾驶、智能家居等。传统的物体检测模型,如YOLO(You Only Look Once)系列,已经在实时检测任务中得到了广泛应用,但仍然存在一些限制,比如速度与精度的平衡问题。
CoovallyAIHub
2025/01/09
2K0
RT-DETR全解析:超越 YOLO,实时物体检测更快更精准(附代码)
使用零样本目标检测识别物体 | 附代码
在这篇文章中,我们将探讨如何使用Hugging Face的transformers库来使用零样本目标检测在冰箱图像中识别物体。这种方法允许我们在不需要针对这些物体进行特定预训练的情况下识别各种物品。以下是如何工作的代码的逐步指南。在这种情况下,我们使用Google的OWL-ViT模型,该模型非常适合目标检测任务。该模型作为管道加载,允许我们将其作为目标检测器使用,设置非常简单。
小白学视觉
2024/12/09
1150
使用零样本目标检测识别物体 | 附代码
Azure 机器学习 - 使用 AutoML 和 Python 训练物体检测模型
首先需要设置用于自动化 ML 模型训练的计算目标。 用于图像任务的自动化 ML 模型需要 GPU SKU。
TechLead
2023/11/07
2590
Azure 机器学习 - 使用 AutoML 和 Python 训练物体检测模型
Transformers 4.37 中文文档(五)
目标检测是计算机视觉任务,用于检测图像中的实例(如人类、建筑物或汽车)。目标检测模型接收图像作为输入,并输出检测到的对象的边界框的坐标和相关标签。一幅图像可以包含多个对象,每个对象都有自己的边界框和标签(例如,它可以有一辆汽车和一座建筑物),每个对象可以出现在图像的不同部分(例如,图像可以有几辆汽车)。这个任务通常用于自动驾驶,用于检测行人、道路标志和交通灯等。其他应用包括在图像中计数对象、图像搜索等。
ApacheCN_飞龙
2024/06/26
4580
Transformers 4.37 中文文档(五)
手把手教你用深度学习做物体检测(四):模型使用
上一篇《手把手教你用深度学习做物体检测(三):模型训练》中介绍了如何使用yolov3训练我们自己的物体检测模型,本篇文章将重点介绍如何使用我们训练好的模型来检测图片或视频中的物体。
程序员一一涤生
2019/09/05
1.4K0
手把手教你用深度学习做物体检测(四):模型使用
万字长文深度解析LLM Agent规划框架:HuggingGPT
书接上回详解大语言模型LLM Agent中规划工作流,我们说到HuggingGPT,它是一个结合了ChatGPT和Hugging Face平台上的各种专家模型,以解决复杂的AI任务,可以认为它是一种结合任务规划和工具调用两种Agent工作流的框架。它的工作流程主要分为以下几个步骤:
AgenticAI
2025/03/18
850
万字长文深度解析LLM Agent规划框架:HuggingGPT
计算机视觉中的物体检测方法
本文适合刚入门物体检测的人群学习,不涉及公式推理。 目录 *摘要 *相关物体检测数据集介绍 *现有的主流物体检测算法 *物体检测的难点与挑战 *相关术语介绍 *物体检测的传统算法概述 *基于深度学习的物体检测算法 R-CNN Fast-RCNN Faster-RCNN YOLO *物体检测动手实践 *参考文献 摘要 相比于图像分类,图像中物体检测是计算机视觉中一个更加复杂的问题,因为图像分类只需要判断出图像属于哪一类就行,而在物体检测中,图像里可能有多个物体,我们需要对所有
张俊怡
2018/04/24
9830
计算机视觉中的物体检测方法
使用PyTorch实现目标检测新范式DETR(基于transformer)| 留言送书
与传统的计算机视觉技术不同,DETR将目标检测作为一个直接的集合预测问题来处理。它由一个基于集合的全局损失和一个Transformer encoder-decoder 结构组成,该全局损失通过二分匹配强制进行唯一预测。给定固定的学习对象查询集,则DETR会考虑对象与全局图像上下文之间的关系,以直接并行并行输出最终的预测集。由于这种并行性,DETR非常快速和高效。
磐创AI
2020/06/04
4.3K0
Object Detection-YOLOv2 Anchor Box Clustering
Dimension Clusters是YOLOv2中使用的优化策略之一,它的主要思路是通过聚合算法,从数据集中预先得到Bounding Box的形状先验数据,从而使得模型更容易学习,并且得到更好的Object Detection结果。
YoungTimes
2022/04/28
5090
Object Detection-YOLOv2 Anchor Box Clustering
Transformers 4.37 中文文档(十七)
管道是使用模型进行推断的一种很好且简单的方式。这些管道是抽象出库中大部分复杂代码的对象,提供了专门用于多个任务的简单 API,包括命名实体识别、掩码语言建模、情感分析、特征提取和问答。查看任务摘要以获取使用示例。
ApacheCN_飞龙
2024/06/26
5730
【人工智能】Transformers之Pipeline(六):图像分类(image-classification)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/08/13
7320
【人工智能】Transformers之Pipeline(六):图像分类(image-classification)
Hugging Face 的应用
Hugging Face 专门开发用于构建机器学习应用的工具。该公司的代表产品是其为自然语言处理应用构建的 transformers 库,以及允许用户共享机器学习模型和数据集的平台
霍格沃兹测试开发Muller老师
2024/09/09
1220
Gemini 可以进行目标检测了!
我们对Gemini印象深刻的多模态能力已经很熟悉了,特别是在涉及图像数据推理时——无论是涉及图像描述、OCR、分类,还是识别图像中的特定内容。与其开放模型对应物PaliGemma不同,Gemini模型并没有明确针对目标检测任务进行训练。这一事实促使我进行一些实验并撰写这篇博客。
小白学视觉
2024/11/11
1140
Gemini 可以进行目标检测了!
手把手教你用深度学习做物体检测(二):数据标注
  上篇文章介绍了如何基于训练好的模型检测图片和视频中的物体,若你也想先感受一下物体检测,可以看看上篇文章:《手把手教你用深度学习做物体检测(一):快速感受物体检测的酷炫 》。
程序员一一涤生
2019/09/05
1.2K0
手把手教你用深度学习做物体检测(二):数据标注
ODTK:来自NVIDIA的旋转框物体检测工具箱
旋转框相比矩形框可以更好的拟合物体,同时标注起来比分割要方便的多,使用来自NVIDIA的ODTK可以方便的训练,实施和部署旋转框物体检测模型,同时具备多种扩展功能。
AI算法与图像处理
2020/11/09
2.9K1
ODTK:来自NVIDIA的旋转框物体检测工具箱
2020-ECCV-End-to-End Object Detection with Transformers
这篇文章[1]针对目标检测任务给出了一个基于 Transformer 的端到端的神经网络模型 DETR,简单且有效,不再需要任何的前/后处理操作。DETR 可谓是目标检测方向上一个里程碑式的工作。作者将目标检测看作是一个集合预测问题,即给定一个图片,预测出所有的物体框的集合。通过将问题转化为集合预测的问题,结合 Transformer 结构,作者将原先目标检测模型中依赖于人的先验知识的部分(NMS 和 Anchor)都删除了,设计出一个简单的端到端架构 DETR。DETR 通过一个全局的集合 Loss,强制模型针对一个物体只会对应有一个框,而不会生成过多的冗余框。此外,在 DETR 架构中,Transformer 的解码器的输入额外有一项 Learned Object Queries,类似于可学习的 Anchor。DETR 简单且有效(但在目标检测上和 SOTA 还是差了挺多)!
hotarugali
2022/08/30
5620
2020-ECCV-End-to-End Object Detection with Transformers
轻松学Pytorch – 行人检测Mask-RCNN模型训练与使用
大家好,这个是轻松学Pytorch的第20篇的文章分享,主要是给大家分享一下,如何使用数据集基于Mask-RCNN训练一个行人检测与实例分割网络。这个例子是来自Pytorch官方的教程,我这里是根据我自己的实践重新整理跟解读了一下,分享给大家。
OpenCV学堂
2020/08/20
3.5K0
轻松学Pytorch – 行人检测Mask-RCNN模型训练与使用
【人工智能】Transformers之Pipeline(二十五):图片特征抽取(image-feature-extraction)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/11/26
3870
【人工智能】Transformers之Pipeline(二十五):图片特征抽取(image-feature-extraction)
推荐阅读
相关推荐
【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档