Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >目标检测模型学习笔记

目标检测模型学习笔记

作者头像
嵌入式视觉
发布于 2022-09-05 06:12:50
发布于 2022-09-05 06:12:50
71600
代码可运行
举报
文章被收录于专栏:嵌入式视觉嵌入式视觉
运行总次数:0
代码可运行

Contents

目标检测的数据增强

  • 有应用在整张图片上、但不会影响边界框的那种变换,比如从图像分类里借来的颜色变换 (Color Transformations)。
  • 也有不影响整张图片、但改变边界框位置的那种变换,比如图像平移 (Translating) 或剪切 (Shearing) 。
  • 还有只针对边界框里的目标,而进行的变换

比起图像分类任务的数据扩增,目标检测的难点在于,要保持边界框和发生形变的图像之间的一致性 (Consistency) 。

目标检测基本理论

CNN中的卷积操作

  • 对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!
  • 对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!
  • 过滤器的深度其实就是过滤器的数量!
  • 线性回归就是给定输入的特征向量X, 学习一组参数W, 使得经过线性回归后的值跟真实值Y非常接近,即Y=WX。

卷积神经网络层数

  • VGG16是卷积层conv+全连接层FC层数是16层,ResNet50是卷积层conv+全连接层FC层数是50层,这样命名是因为池化层不产生权重参数。后面的数字代表权值层数量。
  • resnet残差网络可以找到网络训练的最佳层数 。

目标检测经典模型

目标检测经典模型分为:两阶段(2-stage)检测模型和单阶段(1-stage)检测模型。 2-stage检测模型分成两个步骤解决目标检测问题:

  • 生成可能区域(Region Proposal) & CNN提取特征
  • 分类器识别目标类别并修正检测框位置

R-CNN网络结构

R-CNN可被抽象为两个过程:一是基于图片提出若干个可能包含待检测物体的区域(Region Proposal),使用的算法是Selective Search算法;二是在提出的这些区域上运行当时表现好的分类网络(AlexNet),以得到每个区域物体的类别。

Fast RCNN结构

上图是Fast R-CNN的架构。图片经过feature extractor得到feature map, 同时在原图上运行Selective Search算法并将RoI(Region of Interset,实为坐标组,可与Region Proposal混用)映射到到feature map上,再对每个RoI进行RoI Pooling操作便得到等长的feature vector,将这些得到的feature vector进行正负样本的整理(保持一定的正负样本比例),分batch传入并行的R-CNN子网络,同时进行分类和回归,并将两者的损失统一起来。 注:说句题外话,由Selective Search算法提取的一系列可能含有object的boudning box,这些通常称为region proposals或者region of interest(ROI)。

Faster R-CNN网络结构

Faster R-CNN结构图解析

图1

图2

上图1是 Faster R-CNN的流程图,Faster R-CNN的流程图与Fast R-CNN相同,采用外部候选区域方法代替了内部深层网络。 上图2是python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构(pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt)

Region Proposal Networks(RPN)理解

图3

经典的检测方法生成检测框都非常耗时,如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框;或如R-CNN使用SS(Selective Search)方法生成检测框。而Faster RCNN则抛弃了传统的滑动窗口和SS方法,直接使用RPN生成检测框,这也是Faster R-CNN的巨大优势,能极大提升检测框的生成速度。

上图3展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得foreground和background(检测目标是foreground),下面一条用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合foreground anchors和bounding box regression偏移量获取proposals,同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里,就完成了相当于目标定位的功能。 其实RPN最终就是在原图尺度上,设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的foreground anchor,哪些是没目标的backgroud。所以,仅仅是个二分类而已!

Faster R-CNN总结

图4

Faster R-CNN是2-stage方法的奠基之作,提出RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA(State of the Art,当前最佳)。  其最大贡献在于提出Regional Proposal Networks,替代之前的SS算法,使得训练变成端到端的神经网络训练。

RPN网络将这一任务建模为二分类(是否为物体)的问题。

  • 算法第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box(如上图右边部分),取定IoU的阈值,按Ground Truth标定这些anchor box的正负。于是,传入RPN网络的样本数据被整理为anchor box(坐标)和每个anchor box是否有物体(二分类标签)。RPN网络将每个样本映射为一个概率值和四个坐标值,概率值反应这个anchor box有物体的概率,四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来,作为RPN网络的目标训练。 
  • 第二步由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程,被传入R-CNN子网络,进行多分类和坐标回归,同样用多任务损失将二者的损失联合。 

RPN每个滑动位置默认生成9个框的由来:By default we use 3 scales and 3 aspect ratios, yielding k=9 anchors at each sliding position.

  1. 在RPN的时候,已经对anchor做了一遍NMS,在RCNN测试的时候,还要再做一遍。
  2. 在RPN的时候,已经对anchor的位置做了回归调整,在RCNN阶段还要对RoI再做一遍。
  3. 在RPN阶段分类是二分类,而Fast RCNN阶段是21分类(论文中)。
Faster R-CNN四类损失

虽然原始论文中用的4-Step Alternating Training 即四步交替迭代训练。然而现在github上开源的实现大多是采用近似联合训练(Approximate joint training),端到端,一步到位,速度更快。  在训练Faster RCNN的时候有四个损失

  1. RPN 分类损失:anchor是否为前景(二分类)
  2. RPN位置回归损失:anchor位置微调
  3. RoI 分类损失:RoI所属类别(21分类,多了一个类作为背景)
  4. RoI位置回归损失:继续对RoI位置微调  四个损失相加作为最后的损失,反向传播,更新参数。
Faster RCNN解读参考资料

一文读懂Faster RCNN 从编程实现角度解读Faster RCNN

Mask R-CNN结构

Mask R-CNN结构解析

Mask R-CNN (regional convolutional neural network) is a two stage framework: the first stage scans the image and generates proposals(areas likely to contain an object). And the second stage classifies the proposals and generates bounding boxes and masks.

  • Mask R-CNN基本结构:与Faster RCNN采用了相同的two-state步骤:首先是找出RPN,然后对RPN找到的每个RoI进行分类、定位、并找到binary mask。这与当时其他先找到mask然后在进行分类的网络是不同的。
  • Mask R-CNN的损失函数: $$
  • Mask的表现形式(Mask Representation):因为没有采用全连接层并且使用了RoIAlign,可以实现输出与输入的像素一一对应。
  • RoIAlign:RoIPool的目的是为了从RPN网络确定的ROI中导出较小的特征图(a small feature map,eg 7×7),ROI的大小各不相同,但是RoIPool后都变成了7×7大小。RPN网络会提出若干RoI的坐标以[x,y,w,h]表示,然后输入RoI Pooling,输出7×7大小的特征图供分类和定位使用。问题就出在RoI Pooling的输出大小是7×7上,如果RON网络输出的RoI大小是8*8的,那么无法保证输入像素和输出像素是一一对应,首先他们包含的信息量不同(有的是1对1,有的是1对2),其次他们的坐标无法和输入对应起来(1对2的那个RoI输出像素该对应哪个输入像素的坐标?)。这对分类没什么影响,但是对分割却影响很大。RoIAlign的输出坐标使用插值算法得到,不再量化;每个grid中的值也不再使用max,同样使用差值算法。

FPN结构理解

  • RPN网络结构就介绍到这里,总结起来就是: 生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer生成proposals。
  • RPN网络生成的proposals的方法:对foreground anchors进行bounding box regression,这样获得的proposals也是大小形状各不相同。
  • FPN(Feature Pyramid Network)算法可以同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的,这和常规的特征融合方式不同

目标检测模型测试与训练技巧

模型选择

常用模型:Faster RCNN、Mask RCNN、Retinanet、Cascade RCNN等。  当前检测竞赛圈的通用配置还是 Cascade-R-CNN + ResNeXt/ResNet 系列 + FPN+DCN 2

数据预处理

  • 离线数据增强
  • 在线数据增强(图像亮度、光照强度调整、高斯模糊、上下左右翻转、旋转45°、仿射变换)
  • 数据过采样(对难以坚持的类别进行过采样)
  • mixup:将两张图按照一定的比例混合在一起,来源于李沐的论文。比如在在工业类缺陷检测或者违禁物品检测中,常常会给出一些不含有待检测目标的正常图像,可以将含有目标的图像和随机选取的正常图像进行 mixup(随机意味着更多的组合~),这样数据量又上来了。
  • 填鸭式数据扩增:所谓填鸭式,就是将一些目标(也可以是误捡的)扣出来,放到没有目标的图上去,增加图像的鲁棒性。比如有人在钢筋识别的时候,有一些小石子和吊机容易被误判成钢筋,索性就选了一些图,把这些伪目标填充合理的位置上,效果就是没有再误判过了。

预训练模型

  • 使用ImageNet预训练的backbone
  • 使用coco预训练的完整检测模型权重(效果更佳)

训练策略

  • 预训练模型训练1-4epoch,解冻模型、训练完整模型一定epoch
  • 每隔一定epoch,学习率衰减2/10倍

多尺度训练

每次加载图像都从图像size列表(比如514+i*32, 1024)里,随机选一个尺寸读取图像。即每隔一次iter(每次load image data),都随机选一个图像尺寸训练。

lr选择

检测任务中常用的计算方法是:lr = 0.02 / 8 x num_gpus x img_per_gpu / 2

损失函数选择

Focal Loss 这是 CV 中根据实验结果调整损失函数最先考虑的一个,论文: Focal Loss for Dense Object Detection, 主要是针对模型拟合困难的样例或者样本不均衡的样例,在图像分类中常用作最终的损失函数,直接进行优化,而在目标检测中却有两个选择,一个是在 RPN 层使用 FocalLoss,这样可以缓解由于目标占比较少导致生成的 anchor 正负样本比例失衡;另一种就是类似图像分类一样,在 bbox_head 中使用,mmdetection 中的相应配置。

TTA测试数据增强

效果有提升,但是耗时较长

Soft-NMS

Soft-NMS 改进了之前比较暴力的 NMS,当 IOU 超过某个阈值后,不再直接删除该框,而是降低它的置信度 (得分),如果得分低到一个阈值,就会被排除;但是如果降低后仍然较高,就会被保留。实现细节移步:NMS 与 soft NMS。

参考资料

Kaggle实战目标检测奇淫技巧合集

目标检测基本概念

准确率、召回率与IoU、mAP

混淆矩阵:

  • True Positive(真正例, TP):将正类预测为正类数.
  • True Negative(真负例, TN):将负类预测为负类数.
  • False Positive(假正例, FP):将负类预测为正类数 → 误报 (Type I error).
  • False Negative(假负例子, FN):将正类预测为负类数 → 漏报 (Type II error).

查准率(准确率)P = TP/(TP+FP) 查全率(召回率)R = TP/(TP+FN) 准确率描述了模型有多准,即在预测为正例的结果中,有多少是真正例;召回率则描述了模型有多全,即在为真的样本中,有多少被我们的模型预测为正例。

不同的计算机视觉问题,对两类错误有不同的偏好,常常在某一类错误不多于一定阈值的情况下,努力减少另一类错误。在目标检测中,mAP(mean Average Precision)作为一个统一的指标将这两种错误兼顾考虑。 具体来说就是,在目标检测中,对于每张图片检测模型会输出多个预测框(远超真实框的个数),我们使用IoU(Intersection Over Union,交并比)来标记预测框是否预测准确。标记完成后,随着预测框的增多,查全率R总会上升,在不同查全率R水平下对准确率P做平均,即得到AP,最后再对所有类别按其所占比例做平均,即得到mAP指标。

交并比IOU

交并比(Intersection-over-Union,IoU),目标检测中使用的一个概念,是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值。最理想情况是完全重叠,即比值为1。 计算公式如下:

代码实现如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def calculateIoU(candidateBound, groundTruthBound):
    cx1 = candidateBound[0]
    cy1 = candidateBound[1]
    cx2 = candidateBound[2]
    cy2 = candidateBound[3]
    gx1 = groundTruthBound[0]
    gy1 = groundTruthBound[1]
    gx2 = groundTruthBound[2]
    gy2 = groundTruthBound[3]
    carea = (cx2 - cx1) * (cy2 - cy1) #C的面积
    garea = (gx2 - gx1) * (gy2 - gy1) #G的面积
    x1 = max(cx1, gx1)
    y1 = max(cy1, gy1)
    x2 = min(cx2, gx2)
    y2 = min(cy2, gy2)
    w = max(0, (x2 - x1))
    h = max(0, (y2 - y1))
    area = w * h #CG的面积
    iou = area / (carea + garea - area)
    return iou

NMS介绍

在目标检测中,常会利用非极大值抑制算法(NMS,non maximum suppression)对生成的大量候选框进行后处理,去除冗余的候选框,得到最佳检测框,以加快目标检测的效率。其本质思想是其思想是搜素局部最大值,抑制非极大值。非极大值抑制,在计算机视觉任务中得到了广泛的应用,例如边缘检测、人脸检测、目标检测(DPM,YOLO,SSD,Faster R-CNN)等。即如图 2所示实现效果,消除多余的候选框,找到最佳的bbox。

NMS过程

以上图为例,每个选出来的Bounding Box检测框(既BBox)用(x,y,h,w, confidence score,Pdog,Pcat)表示,confidence score表示background和foreground的置信度得分,取值范围[0,1]。Pdog,Pcat分布代表类别是狗和猫的概率。如果是100类的目标检测模型,BBox输出向量为5+100=105。

NMS算法

NMS主要就是通过迭代的形式,不断地以最大得分的框去与其他框做IoU操作,并过滤那些IoU较大的框。

目标检测算法基本操作

ROI Pooling与ROI Align

总结:知道了RoiPooling和RoiAlign实现原理,在以后的项目中可以根据实际情况进行方案的选择;对于检测图片中大目标物体时,两种方案的差别不大,而如果是图片中有较多小目标物体需要检测,则优先选择RoiAlign,更精准些….

参考资料

ROI Pooling与ROI Align笔记

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
目标检测
图片分类任务我们已经熟悉了,就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题,即目标检测问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车, 还要在图片中标记出它的位置, 用边框或红色方框把汽车圈起来, 这就是目标检测问题。 其中“定位”的意思是判断汽车在图片中的具体位置。
用户1150922
2019/07/10
1.4K0
最全综述 | 图像目标检测
图片分类任务我们已经熟悉了,就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题,即目标检测问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车, 还要在图片中标记出它的位置, 用边框或红色方框把汽车圈起来, 这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。
AI算法与图像处理
2019/07/11
1.3K0
最全综述 | 图像目标检测
02. OCR学习路径之文本检测(上)Faster R-CNN算法简介
由于目前已经几乎不再使用传统的方法来做OCR,后续我们主要分享基于深度学习的OCR算法。该算法一般需要训练两个模型,一个是文本检测模型,一个是文字识别模型。
Aalto
2019/10/21
3K0
02. OCR学习路径之文本检测(上)Faster R-CNN算法简介
入门分享 | 12篇深度学习目标检测必读论文
本文梳理了目标检测领域2013年至2019年的12篇必读论文,为希望学习相关知识的新手提供了很好的入门路径。同时,作者还提供了一个附加论文列表。作为拓展阅读的内容,它们或为目标检测提供了新的视角,或用更强大的功能扩展了这个领域。
AI算法修炼营
2020/08/25
3.8K0
入门分享 | 12篇深度学习目标检测必读论文
目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)
目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)
Minerva
2020/05/25
1.2K0
一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)
作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中,经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列,此为目标检测篇。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/07/05
9520
一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)
基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测
对于一张图片,R-CNN基于selective search方法大约生成2000个候选区域,然后每个候选区域被resize成固定大小(227×227)并送入一个CNN模型中,使用AlexNet来提取图像特征,最后得到一个4096维的特征向量。然后这个特征向量被送入一个多类别SVM分类器中,预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器,从特征向量中推断其属于该类别的概率大小。为了提升定位准确性,R-CNN最后又训练了一个边界框回归模型。训练样本为(P,G),其中P=(Px,Py,Pw,Ph)为候选区域,而G=(Gx,Gy,Gw,Gh)为真实框的位置和大小。G的选择是与P的IoU最大的真实框,回归器的目标值定义为:
机器学习AI算法工程
2019/10/29
3K0
基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
ShowMeAI
2022/06/09
1.8K0
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
干货 | 目标检测入门,看这篇就够了(上)
作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾早期的经典工作,并对较新的趋势做一个全景式的介绍,帮助读者对这一领域建立基本的认识。(营长注:因本文篇幅较长,营长将其分为上、下两部分。) 导言:目标检测的任务表述 如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。 那么,如何理解一张图片?
刘盼
2018/04/08
1.4K0
干货 | 目标检测入门,看这篇就够了(上)
目标检测资源总结
blog.csdn.net/l7H9JA4/article/details/79620247
用户3578099
2019/08/15
8600
目标检测之R-CNN系列综述
上几期我们讲过目标检测 One-Stage 的代表 YOLOv3 本来这一期是打算写 SSD(One-Stage 的另一个代表) 的,发现 SSD 其中涉及的知识是从 R-CNN(Two-Stage)来的,故此。这一期我们就来理理 R-CNN 系列的部分知识点,同样,我们会分为 理论、体验和代码实战 三期来进行讲解,今天就是理论部分。
机器视觉CV
2019/12/10
7820
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
选自medium 机器之心编译 机器之心编辑部 Faster R-CNN、R-FCN 和 SSD 是三种目前最优且应用最广泛的目标检测模型,其他流行的模型通常与这三者类似。本文介绍了深度学习目标检测的
机器之心
2018/05/08
1.5K0
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
基于Pytorch构建Faster-RCNN网络进行目标检测(一)
尽管R-CNN是物体检测的鼻祖,但其实最成熟投入使用的是faster-RCNN,而且在pytorch的torchvision内置了faster-RCNN模型,当然还内置了mask-RCNN,ssd等。既然已经内置了模型,而且考虑到代码的复杂度,我们也无需再重复制造轮子,但对模型本身还是需要了解一下其原理和过程。
python与大数据分析
2023/09/06
1.1K0
基于Pytorch构建Faster-RCNN网络进行目标检测(一)
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
机器视觉领域的核心问题之一就是目标检测(objectdetection),它的任务是找出图像当中所有感兴趣的目标(物体),确定其位置和大小。作为经典的目标检测框架FasterR-CNN,虽然是2015年的论文,但是它至今仍然是许多目标检测算法的基础,这在飞速发展的深度学习领域十分难得。而在FasterR-CNN的基础上改进的MaskR-CNN在2018年被提出,并斩获了ICCV2017年的最佳论文。Mask R-CNN可以应用到人体姿势识别,并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。因此,百度深度学习框架PaddlePaddle开源了用于目标检测的RCNN模型,从而可以快速构建强大的应用,满足各种场景的应用,包括但不仅限于安防监控、医学图像识别、交通车辆检测、信号灯识别、食品检测等等。
用户1386409
2019/06/10
2.3K0
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
【深度学习】目标检测
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
杨丝儿
2022/03/01
2.7K0
【深度学习】目标检测
一文读懂Faster RCNN
来源:信息网络工程研究中心 本文约7500字,建议阅读10+分钟 本文从四个切入点为你介绍Faster R-CNN网络。 经过R-CNN和Fast RCNN的积淀,Ross B. Girshick在2016年提出了新的Faster RCNN,在结构上,Faster RCNN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大提高,在检测速度方
数据派THU
2023/03/29
9820
一文读懂Faster RCNN
重磅|基于深度学习的目标检测综述(一)
作者:叶 虎 编辑:黄俊嘉 前 言 图像分类,检测及分割是计算机视觉领域的三大任务。图像分类模型(详情见[这里](https://medium.com/comet-app/review-of-deep-learning-algorithms-for-image-classification-5fdbca4a05e2))是将图像划分为单个类别,通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体,此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的,并不准确。对于这
机器学习算法工程师
2018/03/30
2.3K0
重磅|基于深度学习的目标检测综述(一)
【深度学习】深度图像检测算法总结与对比
一. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation
黄博的机器学习圈子
2023/01/10
1.1K0
【深度学习】深度图像检测算法总结与对比
CVPR2019目标检测方法进展综述
四期飞跃计划还剩最后一个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO2)
SIGAI学习与实践平台
2019/03/19
5K0
CVPR2019目标检测方法进展综述
干货 | 深度学习时代的目标检测算法
AI 科技评论按:本文作者 Ronald,首发于作者的知乎专栏「炼丹师备忘录」,AI 科技评论获其授权转发。 目前目标检测领域的深度学习方法主要分为两类:two stage 的目标检测算法;one s
AI科技评论
2018/03/07
1.7K0
干货 | 深度学习时代的目标检测算法
推荐阅读
相关推荐
目标检测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验