前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >图像分类技术报告

图像分类技术报告

原创
作者头像
智科帮
修改于 2020-10-09 07:54:44
修改于 2020-10-09 07:54:44
2.4K0
举报
文章被收录于专栏:AIGOAIGO

一、图像分类问题描述

图像分类问题是计算机视觉领域的基础问题,它的目的是根据图像的语义信息将不同类别图像区分开来,实现最小的分类误差。具体任务要求是从给定的分类集合中给图像分配一个标签的任务。总体来说,对于单标签的图像分类问题,它可以分为跨物种语义级别的图像分类,子类细粒度图像分类,以及实例级图像分类三大类别。因为VOC数据集是不同物种类别的数据集,所以本文主要研究讨论跨物种语义级别的图像分类任务。

通常图像分类任务存在以下技术难点:

(1)视角变化:同一个物体,摄像机可以从多个角度来展现。

(2)大小变化:物体可视的大小通常是会变化的。

(3)形变:很多东西的形状并非一成不变,会有很大变化。 (4)遮挡:目标物体可能被挡住。有时候只有物体的一小部分是可见的。

(5)光照条件:在像素层面上,光照的影响非常大。

(6)背景干扰:物体可能混入背景之中,使之难以被辨认。

(7)类内差异:一类物体的个体之间的外形差异很大,比如椅子。这一类物体有许多不同的对象,每个都有自己的外形。

二、已有研究进展

一般说来,图像分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存 在某类物体。应用比较广泛的图像特征有SIFT,HOG,SURF等。这些对图像分类的研究中,大多数特征提取过程是人工设计的, 通过浅层学习获得图像底层特征,与图像高级主题间还存在很大的“语义鸿沟” 。而深度学习利用设定好的网络结构, 完全从训练数据中学习图像的层级结构性特征, 能够提取更加接近图像高级语义的抽象特征,在图像识别上的表现远远超过传统方法,因此这里只关注于深度学习的进展。

2.1 MNIST与LeNet5

在计算机视觉分类算法的发展中,MNIST 是首个具有通用学术意义的基准。这是一个手写数字的分类标准,包含 60000 个训练数据,10000 个测试数据,图像均为灰度图,通用的版本大小为 28×28。

在上个世纪90年代末本世纪初,SVM and K-nearest neighbors方法被使用的比较多,以SVM为代表的方法,可以将MNIST分类错误率降低到了0.56%,彼时仍然超过以神经网络为代表的方法,即LeNet系列网络。LeNet网络诞生于1994年,后经过多次的迭代才有了1998年的LeNet5,是为我们所广泛知晓的版本。

这是一个经典的卷积神经网络,它包含着一些重要的特性,这些特性仍然是现在CNN网络的核心。

(1)卷积层由卷积,池化,非线性激活函数构成。从1998年至今,经过20年的发展后,卷积神经网络依然遵循着这样的设计思想。其中,卷积发展出了很多的变种,池化则逐渐被带步长的卷积完全替代,非线性激活函数更是演变出了很多的变种。

(2)稀疏连接,也就是局部连接,这是以卷积神经网络为代表的技术能够发展至今的最大前提。利用图像的局部相似性,这一区别于传统全连接的方式,推动了整个神经网络技术的发展。

虽然LeNet5当时的错误率仍然停留在0.7%的水平,不如同时期最好的SVM方法,但随着网络结构的发展,神经网络方法很快就超过了其他所有方法,错误率也降低到了0.23%,甚至有的方法已经达到了错误率接近0的水平。

2.2 ImageNet与AlexNet

在本世纪的早期,虽然神经网络开始有复苏的迹象,但是受限于数据集的规模和硬件的发展,神经网络的训练和优化仍然是非常困难的。MNIST和CIFAR数据集都只有60000张图,这对于10分类这样的简单的任务来说,或许足够,但是如果想在工业界落地更加复杂的图像分类任务,仍然是远远不够的。

后来在李飞飞等人数年时间的整理下,2009年,ImageNet数据集发布了,并且从2010年开始每年举办一次ImageNet大规模视觉识别挑战赛,即ILSVRC。ImageNet数据集总共有1400多万幅图片,涵盖2万多个类别,在论文方法的比较中常用的是1000类的基准。

在ImageNet发布的早年里,仍然是以SVM和Boost为代表的分类方法占据优势,直到2012年AlexNet的出现。

AlexNet是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3层,网络的参数量也大大增加,输入也从28变成了224,同时GPU的面世,也使得深度学习从此进行GPU为王的训练时代。

AlexNet有以下的特点:

(1)网络比LeNet5更深,包括5个卷积层和3个全连接层。

(2)使用Relu激活函数,收敛很快,解决了Sigmoid在网络较深时出现的梯度弥散问题。

(3)加入了Dropout层,防止过拟合。

(4)使用了LRN归一化层,对局部神经元的活动创建竞争机制,抑制反馈较小的神经元放大反应大的神经元,增强了模型的泛化能力。

(5)使用裁剪翻转等操作做数据增强,增强了模型的泛化能力。预测时使用提取图片四个角加中间五个位置并进行左右翻转一共十幅图片的方法求取平均值,这也是后面刷比赛的基本使用技巧。

(6)分块训练,当年的GPU计算能力没有现在强大,AlexNet创新地将图像分为上下两块分别训练,然后在全连接层合并在一起。

(7)总体的数据参数大概为240M,远大于LeNet5。

2.3 分类模型的逐年进步

2013年ILSVRC分类任务冠军网络是Clarifai,不过更为我们熟知的是zfnet。hinton的学生Zeiler和Fergus在研究中利用反卷积技术引入了神经网络的可视化,对网络的中间特征层进行了可视化,为研究人员检验不同特征激活及其与输入空间的关系成为了可能。在这个指导下对AlexNet网络进行了简单改进,包括使用了更小的卷积核和步长,将11x11的卷积核变成7x7的卷积核,将stride从4变成了2,性能超过了原始的AlexNet网络。

2014年的冠亚军网络分别是GoogLeNet和VGGNet。

其中VGGNet包括16层和19层两个版本,共包含参数约为550M。全部使用3×3的卷积核和2×2的最大池化核,简化了卷积神经网络的结构。VGGNet很好的展示了如何在先前网络架构的基础上通过简单地增加网络层数和深度就可以提高网络的性能。虽然简单,但是却异常的有效,在今天,VGGNet仍然被很多的任务选为基准模型。

GoogLeNet是来自于Google的Christian Szegedy等人提出的22层的网络,其top-5分类错误率只有6.7%。

GoogleNet的核心是Inception Module,它采用并行的方式。一个经典的inception结构,包括有四个成分。1×1卷积,3×3卷积,5×5卷积,3×3最大池化,最后对四个成分运算结果进行通道上组合。这就是Inception Module的核心思想。通过多个卷积核提取图像不同尺度的信息然后进行融合,可以得到图像更好的表征。自此,深度学习模型的分类准确率已经达到了人类的水平(5%~10%)。

与VGGNet相比,GoogleNet模型架构在精心设计的Inception结构下,模型更深又更小,计算效率更高。

2015年,ResNet获得了分类任务冠军。它以3.57%的错误率表现超过了人类的识别水平,并以152层的网络架构创造了新的模型记录。由于ResNet采用了跨层连接的方式,它成功的缓解了深层神经网络中的梯度消散问题,为上千层的网络训练提供了可能。

2016年依旧诞生了许多经典的模型,包括赢得分类比赛第二名的ResNeXt,101层的ResNeXt可以达到ResNet152的精确度,却在复杂度上只有后者的一半,核心思想为分组卷积。即首先将输入通道进行分组,经过若干并行分支的非线性变换,最后合并。

在ResNet基础上,密集连接的DenseNet在前馈过程中将每一层与其他的层都连接起来。对于每一层网络来说,前面所有网络的特征图都被作为输入,同时其特征图也都被后面的网络层作为输入所利用。

DenseNet中的密集连接还可以缓解梯度消失的问题,同时相比ResNet,可以更强化特征传播和特征的复用,并减少了参数的数目。DenseNet相较于ResNet所需的内存和计算资源更少,并达到更好的性能。

2017年,也是ILSVRC图像分类比赛的最后一年,SeNet获得了冠军。这个结构,仅仅使用了“特征重标定”的策略来对特征进行处理,通过学习获取每个特征通道的重要程度,根据重要性去降低或者提升相应的特征通道的权重。

卷积神经网络在特征表示上具有极大的优越性,模型提取的特征随着网络深度的增加越来越抽象,越来越能表现图像主题语义,不确定性越少,识别能力越强。虽然基本的图像分类任务,尤其是比赛趋近饱和,但是现实中的图像任务仍然有很多的困难和挑战。如类别不均衡的分类任务,类内方差非常大的细粒度分类任务,以及包含无穷负样本的分类任务。

三、方法与实现

3.1 数据处理

考虑到深度学习中模型性能与数据集数量密切相关,以及数据不足导致的训练不充分,本文通过对数据进行预处理以及数据增强提升分类性能,增强模型的泛化性。主要包括调整图像大小、镜像、剪切、旋转和随机擦除等。

神经网络在学习的时候一般采取批学习方式提高效率,在具体实现时,模型接受的是张量,所以首先要把原始数据处理成张量形式。然后是对图像进行预处理,调整大小到统一尺寸,目的是适应模型训练;同时对读入的图像进行归一化,目的是为了让某些激活函数的梯度不致于过小,加快收敛。

通过对图像镜像、剪切、旋转以及随机擦除不仅可以增加数据集的数量,还可以增加图像的识别难度和训练过程中的难例,让模型能够学到更多的有效特征。

3.2 基准模型

由于深度残差网络的简洁性和有效性,因此我们方法的基准网络模型采用深度残差网络ResNet。

深度残差网络是2015年提出的深度卷积网络,一经出世,便在ImageNet中斩获图像分类、检测、定位三项的冠军。 一般来说,增加网络的宽度和深度可以很好的提高网络的性能,深的网络一般都比浅的的网络效果好,通过实验我们发现,当网络层数达到一定的数目以后,网络的性能就会饱和,再增加网络的性能就会开始退化,但是这种退化并不是由过拟合引起的,因为我们发现训练精度和测试精度都在下降,这说明当网络变得很深以后,深度网络就变得难以训练了。 ResNet的出现其实就是为了解决网络深度变深以后的性能退化问题。如下图所示,ResNet主要通过残差网络结构使优化的目标变为H(x)=F(x)+x(x就是该结构的输入),通过这种结构以后就把优化的目标由H(x)转化为H(x)-x,这时候就不是把上面几层训练到一个等价映射了,而是将其逼近与0,这样训练的难度比训练到一个等价映射下降了很多,同时解决网络太深难训练的问题。

残差网络结构
残差网络结构
深度残差网络分类
深度残差网络分类

如上图所示,按照网络模型输出层数的不同,残差网络可以分为ResNet 18、ResNet 34、 ResNet 50、 ResNet 101等。我们分别在这几个基准模型进行了图像分类任务的实现。

3.3 损失函数

多分类问题最常用的方法是设置n个输出节点,其中n为类别的个数。对于每一个样例,网络模型可以得到的一个n维数组作为输出结果。数组中的每一个维度(也就是每一个输出节点)对应一个类别。在理想情况下,如果一个样本属于类别k,那么这个类别所对应的输出节点的输出值应该为1,而其他节点的输出都为0。

交叉熵是最好的评判方法之一。交叉熵刻画了两个概率分布之间的距离,它是分类问题中使用比较广的一种损失函数。本文采用的是加权的交叉熵函数,按照不同类别图像的数量设置权值,目的是平衡不同类别的图像的数量。

3.4 算法流程

(1)数据处理:将数据按需处理为张量、随机组成批量、归一化、标准化以及一些数据增强等效果。

(2)模型定义:定义ResNet模型,设计网络层数,层的类别,包括卷积,池化,批标准化,激活函数的设置。

(3)参数更新:训练模型的过程最基本的就是更新参数,更新参数与模型紧密相关,因此可以把最基础的单次参数更新和模型合在一起包装成一个对象,在训练过程中更新参数时,喂给这个模型数据,然后使用这个对象的行为来实现单次更新。具体流程为根据model生成模型对象,对这些层进行初始化,接受批数据,根据定义好的优化方法,更新对象内的模型参数。

(4)模型选择:模型选择的准则是根据任务需要来的,每次更新完参数测试模型是否满足条件,符合就停止算法,不符继续。

3.5 具体实现

我们的方法实现基于Pytorch深度学习框架,将所有图像调整大小为300*300,批次大小设置为32,模型包括ResNet 18、ResNet 34、 ResNet 50、 ResNet 101,并导入在ImageNet数据集的预训练模型,初始学习率大小设置为1e-3,优化方法选取随机梯度下降方法,动量设置为0.9,训练轮数为16。

四、实验结果

4.1 数据集

本文使用Pascal VOC2012数据集进行模型训练测试,它主要是针对视觉任务中监督学习提供标签数据,它有二十个类别:

(1)Person:person

(2)Animal: bird, cat, cow, dog, horse, sheep

(3)Vehicle:aeroplane, bicycle, boat, bus, car, motorbike, train

(4)Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

主要有四个大类别,分别是人、常见动物、交通车辆、室内家具用品。

本文将在VOC数据集的训练集进行训练,在验证集上进行测试评估。在数据集训练评估之前需要将图片中目标部分抠取出来,进行分类任务。

模型定性评估
模型定性评估

4.2 评价指标

本文采取top1准确率进行模型性能评估,即预测的label取最后概率向量里面最大的那一个作为预测结果,如果预测结果中概率最大的那个分类正确,则预测正确,否则预测错误。

4.3 定性评估

如上图所示,本文在VOC的验证集上进行测试,基本能够对目标进行准确分类,包括在形变、遮挡等复杂条件下,依然有较好的分类效果。

4.4 定量评估

模型

resnet18

resnet34

resnet50

resnet101

准确率

88.45

90.84

91.29

92.59

网络层数

102

182

267

522

模型大小

44.6M

83.2M

97.7M

170M

如表所示,本文分别在基准模型ResNet 18、ResNet 34、 ResNet 50、 ResNet 101分别训练测试了VOC 2012数据集,可以明显看出随着模型层数的增加和模型大小的增加,准确率有提升,但是提升幅度逐渐放缓,在ResNet 101模型上取得了最好的效果92.59。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
卷积神经网络之 - 残差⽹络(RESNET)
残差神经网络 (ResNet) 是由微软研究院的何恺明、张祥雨、任少卿、孙剑等人提出的。ResNet 在 2015 年的 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中取得了图像分类、检测、定位三个冠军。2016 年 CVPR 论文:《Deep Residual Learning for Image Recognition》就介绍了 ResNet,该论文截至当前 (2020.1.3) 已被引用超过 36500 次。
机器视觉CV
2020/07/23
3.3K0
卷积神经网络之 - 残差⽹络(RESNET)
【技术综述】你真的了解图像分类吗?
图像分类是计算机视觉中最基础的任务,基本上深度学习模型的发展史就是图像分类任务提升的发展历史,不过图像分类并不是那么简单,也没有被完全解决。
abs_zero
2018/12/13
7130
【AI初识境】近20年深度学习在图像领域的重要进展节点
这是专栏《AI初识境》的第3篇文章。所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法。
机器视觉CV
2019/10/11
9420
【AI初识境】近20年深度学习在图像领域的重要进展节点
用这种方法实现无监督端到端图像分类!
FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。
数据派THU
2018/08/14
1K0
用这种方法实现无监督端到端图像分类!
【深度学习】CNN图像分类:从LeNet5到EfficientNet
在对卷积的含义有了一定的理解之后,我们便可以对CNN在最简单的计算机视觉任务图像分类中的经典网络进行探索。CNN在近几年的发展历程中,从经典的LeNet5网络到最近号称最好的图像分类网络EfficientNet,大量学者不断的做出了努力和创新。本讲我们就来梳理经典的图像分类网络。
黄博的机器学习圈子
2020/10/19
4.2K0
【深度学习】CNN图像分类:从LeNet5到EfficientNet
【AI有识境】如何掌握好图像分类算法?
进入到有识境界,可以大胆地说自己是一个非常合格的深度学习算法工程师了,能够敏锐地把握自己研究的领域,跟踪前沿和能落地的技术,对自己暂时不熟悉的领域也能快速地触类旁通。
用户1508658
2020/07/07
9350
Andrej Karpathy 最新演讲:计算机视觉深度学习技术与趋势 (104PPT)
2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。 【新智元导读】这两天在斯坦福有场深度学习盛宴,Yoshua Bengio、吴恩达等人从不同角度讲解深度学习的前沿技术和挑战。本
新智元
2018/03/23
9940
被垃圾分类逼疯?AI或许能拯救你
垃圾分类可以更好地保护我们的环境卫生,为了让大家能够正确对垃圾进行分类,官方发布了垃圾分类指南,列举了每种类别对应的常见垃圾,大家可以对照着进行分类投放。此外,脑洞大开的网友们也另辟蹊径,提供了各种有意思的分类思路。
IT阅读排行榜
2019/07/09
7610
被垃圾分类逼疯?AI或许能拯救你
通用视觉框架OpenMMLab图像分类与基础视觉模型
在ImageNet 图像识别挑战赛里,2010 和2011 年的冠军队伍都使用了经典的视觉方法,基于手工设计的特征+ 机器学习算法实现图像分类,Top-5 错误率在25% 上下。
timerring
2023/02/24
8280
通用视觉框架OpenMMLab图像分类与基础视觉模型
深度学习基础之卷积神经网络
卷积神经网络(Convolutional Neural Networks, CNN)是深度学习领域的重要分支,其历史发展和关键里程碑可以追溯到20世纪50年代,并经历了多个重要的阶段。
用户11315985
2024/10/16
2880
深度学习基础之卷积神经网络
别磨叽,学完这篇你也是图像识别专家了
图像识别是当今深度学习的主流应用,而Keras是入门最容易、使用最便捷的深度学习框架,所以搞图像识别,你也得强调速度,不能磨叽。本文让你在最短时间内突破五个流行网络结构,迅速达到图像识别技术前沿。
AI科技大本营
2018/04/27
2.8K0
别磨叽,学完这篇你也是图像识别专家了
眼疾识别图像分类任务
这里使用到了眼疾识别数据集iChallenge-PM,是百度大脑和中山大学中山眼科中心联合举办的iChallenge比赛中,提供的关于病理性近视(Pathologic Myopia,PM)的医疗类数据集,包含1200个受试者的眼底视网膜图片,训练、验证和测试数据集各400张。
灯珑LoGin
2022/10/31
1.2K0
眼疾识别图像分类任务
ResNet - 2015年 ILSVRC 的赢家(图像分类,定位及检测)
在本文,我们ResNet进行了回顾。通过学习残差表征函数而不是直接学习目标表征,ResNet可以拥有多达152层的非常深的网络。
AI研习社
2019/05/08
1.5K0
ResNet - 2015年 ILSVRC 的赢家(图像分类,定位及检测)
关于CNN图像分类的一份综合设计指南
对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别、目标检测等,这些任务都涉及到图像分类。而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一。大多数深度学习研究者首先从CNN入门,上手的第一个项目应该是手写体MNIST数字图像识别,通过该项目能够大致掌握图像分类的基本操作流程,但由于该项目太成熟,按步骤操作一遍可能只知其然而不知其所以然。所以,当遇到其它图像分类任务时,研究者可能不知道如何开始,或者不知道选取怎样的预训练网络模型、或者不知道对已有的成熟模型进行怎样的调整、模型的层数怎样设计、如何提升精度等,这些问题都是会在选择使用卷积神经模型完成图像分类任务时应该考虑的问题。 当选择使用CNN进行图像分类任务时,需要优化3个主要指标:精度、仿真速度以及内存消耗。这些性能指标与设计的模型息息相关。不同的网络会对这些性能指标进行权衡,比如VGG、Inception以及ResNets等。常见的做法是对这些成熟的模型框架进行微调、比如通过增删一些层、使用扩展的其它层以及一些不同的网络训练技巧等完成相应的图像分类任务。 本文是关于使用CNN进行图像分类任务的优化设计指南,方便读者快速掌握图像分类模型设计中所遇到的问题及经验。全文集中在精度、速度和内存消耗这三个性能指标进行扩展,介绍不同的CNN分类方法,并探讨这些方法在这三个性能指标上的表现。此外,还可以看到对这些成熟的CNN方法进行各种修改以及修改后的性能表现。最后,将学习如何针对特定的图像分类任务优化设计一个CNN网络模型。
用户3578099
2019/08/16
1.2K0
基于卷积神经网络的垃圾图像分类算法
垃圾分类作为资源回收利用的重要环节之一, 可以有效地提高资源回收利用效率, 进一步减轻环境污染带 来的危害. 随着现代工业逐步智能化, 传统的图像分类算法已经不能满足垃圾分拣设备的要求. 本文提出一种基于 卷积神经网络的垃圾图像分类模型 (Garbage Classification Network, GCNet). 通过构建注意力机制, 模型完成局部 和全局的特征提取, 能够获取到更加完善、有效的特征信息; 同时, 通过特征融合机制, 将不同层级、尺寸的特征进 行融合, 更加有效地利用特征, 避免梯度消失现象. 实验结果证明, GCNet 在相关垃圾分类数据集上取得了优异的 结果, 能够有效地提高垃圾识别精度.
小白学视觉
2022/02/14
1.1K0
基于卷积神经网络的垃圾图像分类算法
CNN经典模型汇总[通俗易懂]
作为深度学习的基础,神经网络这个算法是必须要有深入的了解的,这里不介绍太多,简单介绍一下原理和单个神经元的结构:
全栈程序员站长
2022/08/02
2.8K0
CNN经典模型汇总[通俗易懂]
从AlexNet到残差网络,理解卷积神经网络的不同架构
该文介绍了神经网络模型压缩、加速和量化三个方面的研究进展。其中,压缩技术包括模型剪枝、知识蒸馏等方法,加速技术包括硬件加速、优化算法等方法,量化技术包括量化训练、量化推理等方法。这些技术在不同程度上减小了模型的大小、提高了推理的速度、降低了训练的能耗。
企鹅号小编
2018/01/04
1K0
从AlexNet到残差网络,理解卷积神经网络的不同架构
基于飞桨PaddlePaddle的多种图像分类预训练模型强势发布
在计算机视觉领域,图像分类是非常重要的基本问题,是图像目标检测、图像分割、图像检索、视频理解、物体跟踪、行为分析等其他高层视觉任务的基础,在实际场景中,有着广泛应用。飞桨(PaddlePaddle)视觉模型库图像分类持续提供业内领先的分类网络结构训练方法以及在imagenet 1000分类任务上的预训练模型。目前,已开源10种不同网络结构,25个预训练模型,包括当前效果最优的ResNet50(top-1:79.84%),助力用户提高构建模型的效率,大大减轻“炼丹”的烦恼。
用户1386409
2019/07/11
1.1K0
基于飞桨PaddlePaddle的多种图像分类预训练模型强势发布
【图像分类】从数据集和经典网络开始
一场完美的交响乐演出,指挥家需要充分结合每位演奏者和乐器的特点,根据演奏曲目把控节奏,才能将曼妙的音符传送到所有听众的耳中。
用户1508658
2019/07/26
1.8K0
卷积神经网络超详细介绍
上世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究,提出了感受野这个概念,到80年代,Fukushima在感受野概念的基础之上提出了神经认知机的概念,可以看作是卷积神经网络的第一个实现网络,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。
全栈程序员站长
2022/06/29
1.4K0
卷积神经网络超详细介绍
推荐阅读
相关推荐
卷积神经网络之 - 残差⽹络(RESNET)
更多 >
LV.0
人工智能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档