前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021

用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021

作者头像
AI科技评论
发布于 2021-11-05 07:11:25
发布于 2021-11-05 07:11:25
3310
举报
文章被收录于专栏:AI科技评论AI科技评论

一次前向传播便可预测几乎任何神经网络的参数,我们离用单一元模型取代手工设计的优化器又近了一步。

编译 | 杏花

编辑 | 青暮

只需一次前向传播,这个图神经网络,或者说元模型,便可预测一个图像分类模型的所有参数。有了它,无需再苦苦等待梯度下降收敛!

来自圭尔夫大学的论文一作 Boris Knyazev 介绍道,该元模型可以预测 ResNet-50 的所有2400万个参数,并且这个 ResNet-50 将在 CIFAR-10 上达到 将近60%的准确率,无需任何训练。特别是,该模型适用于几乎任何神经网络。

基于这个结果,作者向我们发出了灵魂之问:以后还需要 SGD 或 Adam 来训练神经网络吗?

“我们离用单一元模型取代手工设计的优化器又近了一步,该元模型可以在一次前向传播中预测几乎任何神经网络的参数。”

令人惊讶的是,这个元模型在训练时,没有接收过任何类似 ResNet-50 的网络(作为训练数据)。

该元模型的适用性非常广,不仅是ResNet-50,它还可以预测 ResNet-101、ResNet-152、Wide-ResNets、Visual Transformers 的所有参数,“应有尽有”。不止是CIFAR-10,就连在ImageNet这样更大规模的数据集上,它也能带来不错的效果。

同时,效率方面也很不错。该元模型可以在平均不到 1 秒的时间内预测给定网络的所有参数,即使在 CPU 上,它的表现也是如此迅猛!

但天底下终究“没有免费的午餐”,因此当该元模型预测其它不同类型的架构时,预测的参数不会很准确(有时可能是随机的)。一般来说,离训练分布越远(见图中的绿框),预测的结果就越差。

但是,即使使用预测参数的网络分类准确率很差,也不要失望。

我们仍然可以将其作为具有良好初始化参数的模型,而不需要像过去那样,使用随机初始化,“我们可以在这种迁移学习中受益,尤其是在少样本学习任务中。”

作者还表示,“作为图神经网络的粉丝”,他们特地选用了GNN作为元模型。该模型是基于 Chris Zhang、Mengye Ren 和 Raquel Urtasun发表的ICLR 2019论文“Graph HyperNetworks for Neural Architecture Search”GHN提出的。

论文地址:https://arxiv.org/abs/1810.05749

在他们的基础上,作者开发并训练了一个新的模型 GHN-2,它具有更好的泛化能力。

简而言之,在多个架构上更新 GHN 参数,并正确归一化预测参数、改善图中的远程交互以及改善收敛性至关重要。

为了训练 GHN-2,作者引入了一个神经架构数据集——DeepNets-1M

这个数据集分为训练集、验证集和测试集三个部分。此外,他们还使用更广、更深、更密集和无归一化网络来进行分布外测试。

作者补充道,DeepNets-1M 可以作为一个很好的测试平台,用于对不同的图神经网络 (GNN) 进行基准测试。“使用我们的 PyTorch 代码,插入任何 GNN(而不是我们的 Gated GNN )应该都很简单。”

除了解决参数预测任务和用于网络初始化之外, GHN-2 还可用于神经架构搜索,“GHN-2可以搜索最准确、最鲁棒(就高斯噪声而言)、最有效和最容易训练的网络。”

这篇论文已经发表在了NeurIPS 2021上,研究人员分别来自圭尔夫大学、多伦多大学向量人工智能研究所、CIFAR、FAIR和麦吉尔大学。

论文地址:https://arxiv.org/pdf/2110.13100.pdf

项目也已经开源,赶紧去膜拜这个神经网络优化器吧!

项目地址:https://github.com/facebookresearch/ppuda

1

模型详解

考虑在大型标注数据集(如ImageNet)上训练深度神经网络的问题, 这个问题可以形式化为对给定的神经网络 a 寻找最优参数w。

损失函数通常通过迭代优化算法(如SGD和Adam)来最小化,这些算法收敛于架构 a 的性能参数w_p。

尽管在提高训练速度和收敛性方面取得了进展,但w_p的获取仍然是大规模机器学习管道中的一个瓶颈。

例如,在 ImageNet 上训练 ResNet-50 可能需要花费相当多的 GPU 时间。

随着网络规模的不断增长,以及重复训练网络的必要性(如超参数或架构搜索)的存在,获得 w_p 的过程在计算上变得不可持续。

而对于一个新的参数预测任务,在优化新架构 a 的参数时,典型的优化器会忽略过去通过优化其他网络获得的经验。

然而,利用过去的经验可能是减少对迭代优化依赖的关键,从而减少高计算需求。

为了朝着这个方向前进,研究人员提出了一项新任务,即使用超网络 HD 的单次前向传播迭代优化。

为了解决这一任务,HD 会利用过去优化其他网络的知识。

例如,我们考虑 CIFAR-10 和 ImageNet 图像分类数据集 D,其中测试集性能是测试图像的分类准确率。

让 HD 知道如何优化其他网络的一个简单方法是,在[架构,参数]对的大型训练集上对其进行训练,然而,这个过程的难度令人望而却步。

因此,研究人员遵循元学习中常见的双层优化范式,即不需要迭代 M 个任务,而是在单个任务(比如图像分类)上迭代 M 个训练架构。

图 0:GHN原始架构概览。A:随机采样一个神经网络架构,生成一个GHN。B:经过图传播后,GHN 中的每个节点都会生成自己的权重参数。C:通过训练GHN,最小化带有生成权重的采样网络的训练损失。根据生成网络的性能进行排序。来源:https://arxiv.org/abs/1810.05749

通过优化,超网络 HD 逐渐获得了如何预测训练架构的性能参数的知识,然后它可以在测试时利用这些知识。

为此,需要设计架构空间 F 和 HD。

对于 F,研究人员基于已有的神经架构设计空间,我们以两种方式对其进行了扩展:对不同架构进行采样的能力和包括多种架构的扩展设计空间,例如 ResNets 和 Visual Transformers。

这样的架构可以以计算图的形式完整描述(图 1)。

因此,为了设计超网络 HD,将依赖于图结构数据机器学习的最新进展。

特别是,研究人员的方案建立在 Graph HyperNetworks (GHNs) 方法的基础上。

通过设计多样化的架构空间 F 和改进 GHN,GHN-2在 CIFAR-10和 ImageNet上预测未见过架构时,图像识别准确率分别提高到77% (top-1)和48% (top-5)。

令人惊讶的是,GHN-2 显示出良好的分布外泛化,比如对于相比训练集中更大和更深的架构,它也能预测出良好的参数。

例如,GHN-2可以在不到1秒的时间内在 GPU 或 CPU 上预测 ResNet-50 的所有 2400 万个参数,在 CIFAR-10 上达到约 60%的准确率,无需任何梯度更新(图 1,(b))。

总的来说,该框架和结果为训练网络开辟了一条新的、更有效的范式。

本论文的贡献如下:

  • (a)引入了使用单个超网络前向传播预测不同前馈神经网络的性能参数的新任务;
  • (b)引入了 DEEPNETS-1M数据集,这是一个标准化的基准测试,具有分布内和分布外数据,用于跟踪任务的进展;
  • (c)定义了几个基线,并提出了 GHN-2 模型,该模型在 CIFAR-10 和 ImageNet( 5.1 节)上表现出奇的好;
  • (d)该元模型学习了神经网络架构的良好表示,并且对于初始化神经网络是有用的。

图 1:GHN 模型概述

上图图1(a)展示了GHN 模型概述(详见第 4 节),基于给定图像数据集和DEEPNETS-1M架构数据集,通过反向传播来训练GHN模型,以预测图像分类模型的参数。

研究人员对 vanilla GHN 的主要改进包括Meta-batching、Virtual edges、Parameter normalization等。

其中,Meta-batching仅在训练 GHN 时使用,而Virtual edges、Parameter normalization用于训练和测试时。a1 的可视化计算图如表 1 所示。

图1(b)比较了由 GHN 预测ResNet-50 的所有参数的分类准确率与使用 SGD 训练其参数时的分类准确率。尽管自动化预测参数得到的网络准确率仍远远低于人工训练的网络,但可以作为不错的初始化手段。

2

实验:参数预测

尽管 GHN-2 从未观察过测试架构,但 GHN-2 为它们预测了良好的参数,使测试网络在两个图像数据集上的表现都出奇的好(表 3 和表 4)。

表 3:GHN-2在DEEPNETS-1M 的未见过 ID 和 OOD 架构的预测参数结果(CIFAR-10 )

表 4:基于GHN-1、GHN-2、MLP的元模型在DEEPNETS-1M 上的结果,以及使用SGD、Adam优化器训练分类器的结果(ImageNet数据集)

其中, CIFAR-10 上的结果尤为突出,一些预测参数架构的准确率达到了77.1%,而使用 SGD 训练 50 个epoch的最佳准确率大约为 15%。

GHN-2甚至在 ImageNet 上展示了良好的结果,其中对于某些架构,实现了高达 48.3% 的top-5准确率。

虽然这些结果对于直接下游应用来说很不够,但由于三个主要原因,它们非常有意义。

首先,不依赖于通过 SGD 训练架构 F 的昂贵得令人望而却步的过程。

其次,GHN 依靠单次前向传播来预测所有参数。

第三,这些结果是针对未见过的架构获得的,包括 OOD 架构。即使在严重的分布变化(例如 ResNet-506 )和代表性不足的网络(例如 ViT7 )的情况下,GHN-2仍然可以预测比随机参数表现更好的参数。

在 CIFAR-10 上,GHN-2 的泛化能力特别强,在 ResNet-50 上的准确率为 58.6%。

在这两个图像数据集上,GHN-2 在 DEEPNETS-1M 的所有测试子集上都显着优于 GHN-1,在某些情况下绝对增益超过 20%,例如BN-FREE 网络上的 36.8% 与 13.7%(表 3)。

利用计算图的结构是 GHN 的一个关键特性,当用 MLP 替换 GHN-2 的 GatedGNN 时,在 ID(甚至在 OOD)架构上的准确率从 66.9% 下降到 42.2%。

与迭代优化方法相比,GHN-2 预测参数的准确率分别与 CIFAR-10 和 ImageNet 上 SGD 的 ∼2500 次和 ∼5000 次迭代相近。

相比之下,GHN-1 的性能分别与仅 ~500 次和 ~2000次(未在表 4 中展示)迭代相似。

消融实验(表 5)表明第 4 节中提出的所有三个组件都很重要。

表 5:在 CIFAR-10 上消融 GHN-2,在所有 ID 和 OOD 测试架构中计算模型的平均排名

总而言之:GHN-2是一个图神经网络优化器,可以秒级训练需要的AI模型,相比经典优化器非常快,节省算力和时间,即便得到的模型效果不是最优,亦可以作为很好的初始化手段。

参考链接:

https://arxiv.org/pdf/2110.13100.pdf

https://twitter.com/BorisAKnyazev/status/1452813952719761416

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Meta实习生让AI「调教」AI?ResNet-50无需训练,2400万参数秒级预测
为了摆脱繁琐的训练过程,Boris Knyazev团队设计了一个「超网络」, 对于任意全新的深度神经网络,可以在几分之一秒内预测出该网络的参数,不再需要进行训练。
新智元
2022/02/24
4200
Meta实习生让AI「调教」AI?ResNet-50无需训练,2400万参数秒级预测
速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
机器之心报道 作者:张倩、小舟 在一篇 NeurIPS 2020 Spotlight 论文中,来自耶鲁大学等机构的研究者提出了一种新型优化器,可以像 Adam 一样快速收敛,准确率媲美 SGD ,还能稳定训练 GAN 。 最常用的深度学习优化器大致可分为自适应方法(如Adam)和加速方案(如带有动量的随机梯度下降(SGD))。与 SGD 相比,许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快,但泛化效果却较差。对于生成对抗网络(GAN)这类的复杂情况,通常默认使用自适应方法,因为其具有稳定性。
机器之心
2023/03/29
5480
速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
99.22%准确率!EfficientNet优化算法实现猪肉新鲜度无损快检
针对传统猪肉新鲜度检测方法效率低、破坏性强的问题,本研究提出一种基于EfficientNet框架的智能无损检测技术。通过采集2500张原始猪肉图像,结合旋转、缩放等增强策略构建6万张数据集,并采用迁移学习策略(CIFAR-10预训练+五分类微调)优化模型性能。实验表明,改进后的EfficientNetB2模型在五分类任务中准确率达99.22%,训练时间仅157分钟,显著优于AlexNet(89.03%)、VGG16(79.90%)和ResNet50(97.10%)。进一步引入RAdam优化器,虽未提升准确率,但有效增强了模型泛化能力,误检样本分析显示其对原始图像识别准确率达100%。该技术为猪肉品质快速在线检测提供了高效解决方案,兼具工程实用性与学术创新性。
CoovallyAIHub
2025/03/18
490
ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求
选自arXiv 作者:林宇鋆、韩松等 机器之心编译 参与:刘晓坤 来自清华大学和斯坦福大学的研究者们发现,分布式随机梯度下降训练中 99.9% 的梯度交换都是冗余的——通过他们提出的深度梯度压缩(DGC)方法,神经网络训练可以大幅降低通信带宽需求。在多个基准模型上的对比实验表明,该方法可以在不降低准确率的情况下达到 270 倍到 600 倍的梯度压缩率,使得小带宽甚至移动设备上的大规模分布式训练变为可能。 作者简介 林宇鋆是清华大学电子工程系 NICS 实验室 2014 级本科生,于 2017 年暑假在斯坦
机器之心
2018/05/09
1.9K0
ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求
不用批归一化也能训练万层ResNet,新型初始化方法Fixup了解一下
前几天,我们介绍了「机器学习领域的七大谣传」,其中一个谣传就是「训练超深度残差网络怎么少得了批归一化(BN)!」。文中介绍了论文《Fixup Initialization: Residual Learning Without Normalization》表明在不引入任何归一化方法的情况下,通过使用原版 SGD,可以有效地训练一个 10,000 层的深度网络。也就是说「训练超深残差网络可以不用批归一化」。
机器之心
2019/03/15
9250
不用批归一化也能训练万层ResNet,新型初始化方法Fixup了解一下
2048块GPU再次加速SGD:富士通74.7秒完成ResNet-50 训练
这一次,来自富士通的研究人员用上了 2048 块 GPU,以 81,920 的批量大小用 74.7 秒完成了 ResNet-50 训练。
机器之心
2019/04/29
6490
2048块GPU再次加速SGD:富士通74.7秒完成ResNet-50 训练
不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
该论文指出识别每张图片所需要的最小分辨率是不同的,而现有方法并没有充分挖掘输入分辨率的冗余性,也就是说输入图片的分辨率不应该是固定的。论文进一步提出了一种动态分辨率网络 DRNet,其分辨率根据输入样本的内容动态决定。一个计算量可以忽略的分辨率预测器和我们所需要的图片分类网络一起优化训练。在推理过程中,每个输入分类网络的图像将被调整到分辨率预测器所预测的分辨率,以最大限度地减少整体计算负担。
机器之心
2021/10/26
1.2K0
不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
作者 | Rafael Müller , Simon Kornblith, Geoffrey Hinton
AI科技大本营
2019/07/11
6980
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
计算机视觉之ResNet50图像分类
图像分类是计算机视觉应用中最基础的一种,属于有监督学习类别。它的任务是给定一张图像,判断图像所属的类别,比如猫、狗、飞机、汽车等等。本章将介绍使用ResNet50网络对CIFAR-10数据集进行分类。
查拉图斯特拉说
2024/07/11
1.5K0
计算机视觉之ResNet50图像分类
ResNet论文翻译——中文版
Tyan
2017/12/29
2.6K0
ResNet论文翻译——中文版
Adam作者大革新, 联合Hinton等人推出全新优化方法Lookahead
最优化方法一直主导着模型的学习过程,没有最优化器模型也就没了灵魂。好的最优化方法一直是 ML 社区在积极探索的,它几乎对任何机器学习任务都会有极大的帮助。
机器之心
2019/07/30
4600
学界 | SWATS:自动由Adam切换为SGD而实现更好的泛化性能
选自arXiv 作者:Nitish Shirish Keskar、Richard Socher 机器之心编译 参与:蒋思源、李泽南 在 ICLR 2018 的高分论文中,有研究者表明因为历史梯度平方的滑动平均值,Adam 等算法并不能收敛到最优解,因此它在泛化误差上可能要比 SGD 等方法差。最近 Salesforce 的研究者提出了一种转换机制,他们试图让算法在训练过程中自动由 Adam 无缝转换到 SGD 而保留两种优化算法的优良属性。 随机梯度下降(SGD)已经成为了深度神经网络最常用的训练算法之一。
机器之心
2018/05/11
1.6K0
「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet
尽管深度神经网络在图像分类方面具有很强的经验性能(empirical performance),但这类模型往往被视为「黑盒」,最为人诟病的就是「难以解释」。
新智元
2023/01/07
6440
「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet
如何引诱分类器犯错?南大周志华等提出用自编码器生成恶意训练数据
论文链接:https://arxiv.org/pdf/1905.09027.pdf
机器之心
2019/05/30
5780
获奖无数的深度残差学习,清华学霸的又一次No.1 | CVPR2016 最佳论文
图像识别的深度残差学习————联合编译:李尊,陈圳、章敏 摘要 在现有基础下,想要进一步训练更深层次的神经网络是非常困难的。我们提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,并且可以从深度增加中大大提高精度。我们在ImageNet数据集用152 层--比VGG网络深8倍的深度来评估残差网络,但它仍具有较低的复杂度。在ImageNet测试集中,
AI科技评论
2018/03/07
1.1K0
获奖无数的深度残差学习,清华学霸的又一次No.1 | CVPR2016 最佳论文
引入Powerball 与动量技术,新SGD优化算法收敛速度与泛化效果双提升 | IJCAI
本文介绍的是 IJCAI-2020论文《pbSGD: Powered Stochastic Gradient Descent Methods for Accelerated Non-Convex Optimization》,该论文由华中科技大学、滑铁卢大学和加州大学伯克利分校合作完成。
AI科技评论
2020/07/23
9900
引入Powerball 与动量技术,新SGD优化算法收敛速度与泛化效果双提升 | IJCAI
即插即用注意力机制 | ResNet50+DSA注意力还可以再挣扎挣扎!!!
卷积神经网络(CNNs)在结构上设计用于通过应用卷积核实现的卷积滤波器来利用局部空间层次。尽管这使得它们在涉及局部空间模式的任务上既高效又有效,但其固有的设计限制了它们的感受野,可能会阻碍不在内核边界内的相关信息的全面集成。
集智书童公众号
2023/11/28
2.8K0
即插即用注意力机制 | ResNet50+DSA注意力还可以再挣扎挣扎!!!
视频 | NeurIPS 2019分享:华为诺亚方舟提出基于少量数据的神经网络模型压缩技术
在上周四的第二期分享中,华为诺亚方舟实验室研究员许奕星为大家详细解读了大会接收的这篇 Spotlight 论文《Positive-Unlabeled Compression on the Cloud》。
机器之心
2019/12/06
6830
从自监督到全监督!Google 提出新损失函数SupCon,准确率提升2%!
---- 新智元报道   来源:Google AI Blog 编辑:LRS 【新智元导读】监督学习中一个重要的模块就是损失函数了,而最常见的损失函数就是交叉熵了。Google在NIPS2020上提出了一个损失函数SupCon,只需换掉交叉熵,准确率立刻提升2%,快来了解一下吧! 近年来,由于对比学习的应用,自监督表征(self-supervised representation learning)学习在各种图像和视频任务中得到了显著的发展。 对比学习方法通常指导模型在嵌入空间中将目标图像(anchor
新智元
2023/05/22
1.2K0
从自监督到全监督!Google 提出新损失函数SupCon,准确率提升2%!
谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%,大神Quoc Le出品
玩深度学习的人都知道,AI算法大部分是数据驱动。数据的质量一定程度上决定了模型的好坏。
量子位
2019/11/22
6510
谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%,大神Quoc Le出品
推荐阅读
Meta实习生让AI「调教」AI?ResNet-50无需训练,2400万参数秒级预测
4200
速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
5480
99.22%准确率!EfficientNet优化算法实现猪肉新鲜度无损快检
490
ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求
1.9K0
不用批归一化也能训练万层ResNet,新型初始化方法Fixup了解一下
9250
2048块GPU再次加速SGD:富士通74.7秒完成ResNet-50 训练
6490
不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
1.2K0
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
6980
计算机视觉之ResNet50图像分类
1.5K0
ResNet论文翻译——中文版
2.6K0
Adam作者大革新, 联合Hinton等人推出全新优化方法Lookahead
4600
学界 | SWATS:自动由Adam切换为SGD而实现更好的泛化性能
1.6K0
「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet
6440
如何引诱分类器犯错?南大周志华等提出用自编码器生成恶意训练数据
5780
获奖无数的深度残差学习,清华学霸的又一次No.1 | CVPR2016 最佳论文
1.1K0
引入Powerball 与动量技术,新SGD优化算法收敛速度与泛化效果双提升 | IJCAI
9900
即插即用注意力机制 | ResNet50+DSA注意力还可以再挣扎挣扎!!!
2.8K0
视频 | NeurIPS 2019分享:华为诺亚方舟提出基于少量数据的神经网络模型压缩技术
6830
从自监督到全监督!Google 提出新损失函数SupCon,准确率提升2%!
1.2K0
谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%,大神Quoc Le出品
6510
相关推荐
Meta实习生让AI「调教」AI?ResNet-50无需训练,2400万参数秒级预测
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档