前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hinton向量学院推出神经ODE:超越ResNet 4大性能优势

Hinton向量学院推出神经ODE:超越ResNet 4大性能优势

作者头像
朱晓霞
发布于 2018-07-23 02:32:22
发布于 2018-07-23 02:32:22
1.6K0
举报

来源:arXiv

作者:闻菲,肖琴

【导读】Hinton创建的向量学院的研究者提出了一类新的神经网络模型,神经常微分方程(Neural ODE),将神经网络与常微分方程结合在一起,用ODE来做预测。不是逐层更新隐藏层,而是用神经网络来指定它们的衍生深度,用ODE求解器自适应地计算输出。

我们知道神经网络是一种大的分层模型,能够从复杂的数据中学习模式。这也是为什么神经网络在处理图像、声音、视频和序列行动时有很多成功的应用。但我们常常忘记一点,那就是神经网络也是一种通用函数逼近器,因此,神经网络可以作为数值分析工具,用来解决更多的“经典”数学问题,比如常微分方程(Ordinary Differential Equation,ODE)。

2015年横空出世的残差网络ResNet,已经成为深度学习业界的一个经典模型,ResNet对每层的输入做一个reference,学习形成残差函数,这种残差函数更容易优化,使网络层数大大加深。不少研究者都将 ResNet 作为近似ODE求解器,展开了对 ResNet的可逆性(reversibility)和近似计算的研究。

在一篇最新的论文里,来自多伦多大学和“深度学习教父”Geoffrey Hinton创建的向量学院的几位研究者,将深度学习与ODE求解器相结合,提出了“神经ODE”(Neural ODE),用更通用的方式展示了这些属性。

他们将神经ODE作为模型组件,为时间序列建模、监督学习和密度估计开发了新的模型。这些新的模型能够根据每个输入来调整其评估策略,并且能显式地控制计算速度和精度之间的权衡。

将深度学习和常微分方程结合在一起,提供四大优势

残差网络、递归神经网络解码器和标准化流(normalizing flows)之类模型,通过将一系列变化组合成一个隐藏状态(hidden state)来构建复杂的变换:

其中

。这些迭代更新可以看作是连续变换的欧拉离散化。

当我们向网络中添加更多的层,并采取更少的步骤时会发生什么呢?在极限情况下,我们使用神经网络指定的常微分方程(ODE)来参数化隐藏单元的连续动态:

从输入层

开始,我们可以将输出层

定义为在某个时间

时这个ODE的初始值问题的解。这个值可以通过黑盒微分方程求解器来计算,该求解器在必要的时候评估隐藏单元动态

,以确定所需精度的解。图1对比了这两种方法。

图1:左:残差网络定义一个离散的有限变换序列。右:ODE网络定义了一个向量场,它不断地变换状态。圆圈代表评估位置。

使用ODE求解器定义和评估模型有以下几个好处:

  • 内存效率。在论文第2章,我们解释了如何计算任何ODE求解器的所有输入的标量值损失的梯度,而不通过求解器的操作进行反向传播。不存储任何中间量的前向通道允许我们以几乎不变的内存成本来训练模型,这是训练深度模型的一个主要瓶颈。
  • 自适应计算。欧拉方法(Euler’s method)可能是求解ODE最简单的方法。现代的ODE求解器提供了有关近似误差增长的保证,检测误差的大小并实时调整其评估策略,以达到所要求的精度水平。这使得评估模型的成本随着问题复杂度而增加。训练结束后,可以降低实时应用或低功耗应用的精度。
  • 参数效率。当隐藏单元动态(hidden unit dynamics)被参数化为时间的连续函数时,附近“layers”的参数自动连接在一起。在第3节中,我们表明这减少了监督学习任务所需的参数数量。
  • 可扩展的和可逆的normalizing flows。连续变换的一个意想不到的好处是变量公式的变化更容易计算了。在第4节中,我们推导出这个结果,并用它构造了一类新的可逆密度模型,该模型避免了normalizing flows的单个单元瓶颈,并且可以通过最大似然法直接进行训练。
  • 连续时间序列模型。与需要离散观测和发射间隔的递归神经网络不同,连续定义的动态可以自然地并入任意时间到达的数据。在第5节中,我们构建并演示了这样一个模型。

ODE求解器提供了一个通用的反向传播算法

论文作者、多伦多大学助理教授David Duvenaud表示,他们通过ODE求解器,提供了一个通用的backprop,但他们的方法是从可逆性上入手,而不是在ODE求解器的运算里进行反向传播(因为这样做对内存消耗很大)。这个方法已经添加到 autograd。

另一位作者、多伦多大学的博士生Tian Qi Chen也表示,他们这项工作创新的地方就在于提出并且开源了一种新方法,在自动微分的框架下,将ODE和深度学习结合在一起。

此外,这项研究还得到了很多意外的收获。例如,构建了连续标准化流(continuous normalizing flows),可逆性强,可以使用宽度,就像 Real NVP一样,但不需要对数据维度分区或排序。

标准化流与连续标准化流量的比较。标准化流的模型容量由网络的深度(K)决定,而连续标准化流的模型容量可以通过增加宽度(M)来增加,使它们更容易训练。来源:研究论文

还有时间连续RNN(continuous-time RNNs),能够处理不规则的观察时间,同时用状态依赖的泊松过程近似建模。下图展示了普通的RNN和神经ODE对比:

Tian Qi Chen说,他尤其喜欢变量的即时改变,这打开了一种新的方法,用连续标准流进行生成建模。

目前,作者正在讲ODE求解器拓展到GPU上,做更大规模的扩展。

论文:神经常微分方程

摘要

我们提出了一类新的深度神经网络模型。不在隐藏层中指定离散序列,而是用神经网络来对隐藏状态的导数进行参数化。网络的输出使用一个黑箱微分方程求解器来计算。这些连续深度(continuous-depth)模型具有常量存储成本,根据每个输入来调整其评估策略,并且可以显示地(explicitly)牺牲数值精度来获取速度。我们在连续深度残差网络和连续时间潜变量模型中证明了这些性质。我们还构建了连续标准化流(continuous normalizing flows),这是一种可以用最大似然法来训练的生成模型,无需对数据维度进行分区或排序。至于训练,我们展示了在不访问其内部操作的情况下,对任意ODE求解器进行可扩展反向传播的过程。这使得我们能在较大的模型里对ODE进行端到端的训练。

参考资料 & 了解更多:

  • Neural ODE 论文:https://arxiv.org/pdf/1806.07366.pdf
  • autograd:https://github.com/HIPS/autograd/blob/master/autograd/scipy/integrate.py
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 目标检测和深度学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
概率建模和推理的标准化流 review2021
Normalizing Flows for Probabilistic Modeling and Inference 调查
CreateAMind
2024/06/04
1940
概率建模和推理的标准化流 review2021
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
全新的生成模型MeanFlow,最大亮点在于它彻底跳脱了传统训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成生成。
新智元
2025/05/22
1180
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
神经网络常微分方程 (Neural ODEs) 解析
在本文中,我将尝试简要介绍一下这篇论文的重要性,但我将强调实际应用,以及我们如何应用这种需要在应用程序中应用各种神经网络。
AI科技评论
2019/08/15
7.3K1
「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态
提到 David Duvenaud 你或许有些陌生,但最近大热的「神经常微分方程」想必你一定听说过。
机器之心
2020/07/06
1.1K0
学界 | NIPS2018最佳论文解读:Neural Ordinary Differential Equations
AI 科技评论按:不久前,NeurIPS 2018 在加拿大蒙特利尔召开,在这次著名会议上获得最佳论文奖之一的论文是《Neural Ordinary Differential Equations》,论文地址:https://arxiv.org/abs/1806.07366。Branislav Holländer 在 towards data science 上对这篇论文进行了解读, AI 科技评论编译整理如下:
AI科技评论
2019/01/09
2.7K0
硬核NeruIPS 2018最佳论文,一个神经了的常微分方程
在最近结束的 NeruIPS 2018 中,来自多伦多大学的陈天琦等研究者成为最佳论文的获得者。他们提出了一种名为神经常微分方程的模型,这是新一类的深度神经网络。神经常微分方程不拘于对已有架构的修修补补,它完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。在陈天琦的讲解下,机器之心将向各位读者介绍这一令人兴奋的神经网络新家族。
机器之心
2019/01/02
1K0
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
在机器学习(ML)领域,动力学系统与深度学习的结合已经成为研究社区感兴趣的课题。尤其是对神经微分方程(neural differential equation, NDEs)而言,它证明了神经网络和微分方程是「一枚硬币的正反面」。
机器之心
2022/02/24
1K0
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
深度学习十年发展回顾:里程碑论文汇编
这篇文章概述了过去十年来最有影响力的一些论文。我希望通过简洁明了的摘要来提供深度学习领域不同方向的起点,并且提供了相当多的参考资料。
大数据文摘
2020/02/12
8880
神经网络轻松表示任意复杂度的贝叶斯后验的能力预示着科学数据分析的一场革命2
Consistency Models for Scalable and Fast Simulation-Based Inference
CreateAMind
2024/06/04
2301
神经网络轻松表示任意复杂度的贝叶斯后验的能力预示着科学数据分析的一场革命2
【AAAI 2021】四篇好文简读-专题1
Flow-based Generative Models for Learning Manifold to Manifold Mappings
智能生信
2021/10/08
4980
【AAAI 2021】四篇好文简读-专题1
基于神经网络的偏微分方程求解器再度取得突破,北大&字节的研究成果入选Nature子刊
偏微分方程的用处和复杂性相伴而生,例如,想要观察空气在飞机机翼附近的流动二维透视图,建模人员想知道流体在空间中任何一点(也称为流场)以及在不同时间的速度和压力的话,就需要用到偏微分方程。考虑到能量、质量和动量守恒定律,特定的偏微分方程,即Navier-Stokes方程可以对这种流体流动进行建模。
一枕眠秋雨
2024/03/11
1.6K0
基于神经网络的偏微分方程求解器再度取得突破,北大&字节的研究成果入选Nature子刊
神经ODEs:另一个深度学习突破的细分领域
https://github.com/Rachnog/Neural-ODE-Experiments
代码医生工作室
2019/06/21
3.3K0
神经ODEs:另一个深度学习突破的细分领域
ResNet架构可逆!多大等提出性能优越的可逆残差网络
神经网络模型的一个主要诉求是用单个模型架构解决各种相关任务。然而,最近的许多进展都是针对特定领域量身定制的特定解决方案。例如,无监督学习中的当前最佳架构正变得越来越具有领域特定性 (Van Den Oord et al., 2016b; Kingma & Dhariwal, 2018; Parmar et al., 2018; Karras et al., 2018; Van Den Oord et al., 2016a)。另一方面,用于判别学习的最成功的前馈架构之一是深度残差网络 (He et al., 2016; Zagoruyko & Komodakis, 2016),该架构与对应的生成模型有很大不同。这种划分使得为给定任务选择或设计合适架构变得复杂。本研究提出一种在这两个领域都表现良好的新架构,弥补了这一差距。
机器之心
2019/04/29
1.2K0
ResNet架构可逆!多大等提出性能优越的可逆残差网络
NeurIPS 2018 开幕重磅:四篇最佳论文正式揭晓,论文接受全方位数据公开
开幕式上公布了4篇最佳论文,其中一篇最佳论文一作来自华为诺亚方舟实验室,另外几篇最佳论文被来自多伦多、谷歌AI的研究者包揽。
大数据文摘
2018/12/24
4640
NeurIPS 2018 开幕重磅:四篇最佳论文正式揭晓,论文接受全方位数据公开
近九千人齐聚 NeurIPS 2018,四篇最佳论文,十大研究领域,1010 篇论文被接收
AI 科技评论消息:NeurIPS 2018 于 12 月 3 日—12 月 8 日在加拿大蒙特利尔会展中心(Palais des Congrès de Montréal)举办,今年共计有 9 场 Tutorial 、7 场主题 Talk 和 41 场 Workshop,相较去年来说,不管是主题活动,还是投稿论文,亦或是参会人数,都上了一层新的台阶。
AI科技评论
2018/12/24
3980
可以估计不确定性的神经网络:SDE-Net
来源丨https://zhuanlan.zhihu.com/p/234834189
计算机视觉
2020/11/11
1.6K0
可以估计不确定性的神经网络:SDE-Net
Free-form Flows比扩散模型提升两个数量级
Free-form Flows: Make Any Architecture a Normalizing Flow
CreateAMind
2024/05/22
1890
Free-form Flows比扩散模型提升两个数量级
高数期末有救了?AI新方法解决高数问题,性能超越Matlab
机器学习的传统是将基于规则的推断和统计学习对立起来,很明显,神经网络站在统计学习那一边。神经网络在统计模式识别中效果显著,目前在计算机视觉、语音识别、自然语言处理等领域中的大量问题上取得了当前最优性能。但是,神经网络在符号计算方面取得的成果并不多:目前,如何结合符号推理和连续表征成为机器学习面临的挑战之一。
机器之心
2019/12/24
1.6K0
学界 | 通过扭曲空间来执行数据分类:基于向量场的新型神经网络架构
选自arxiv 作者:Daniel Vieira等 机器之心编译 参与:蒋思源、刘晓坤 最近,向量场被用于分析生成对抗网络(GAN)优化问题,并在对 GAN 局限性的洞察和理解,以及扩展方法上取得了相当不错的结果。本论文提出了一种新的架构,将向量场作为激活函数而获得强大的非线性属性。以二值交叉熵作为损失函数,作者通过随机梯度下降方法优化向量场,并在小数据集上取得了不错的效果。 通过将向量场的概念应用到神经网络,可以在其中发现大量已建立的数学和物理概念、抽象和可视化分析方法。例如,本研究利用了欧拉的求解常微
机器之心
2018/05/10
1.1K0
ResNet与常见ODE初值问题的数值解法
本文主要从三个方面来讨论DNN堆叠和数值方法之间的联系,以ResNet为例,但不仅仅是ResNet。
BBuf
2021/04/30
1.2K0
推荐阅读
概率建模和推理的标准化流 review2021
1940
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
1180
神经网络常微分方程 (Neural ODEs) 解析
7.3K1
「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态
1.1K0
学界 | NIPS2018最佳论文解读:Neural Ordinary Differential Equations
2.7K0
硬核NeruIPS 2018最佳论文,一个神经了的常微分方程
1K0
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
1K0
深度学习十年发展回顾:里程碑论文汇编
8880
神经网络轻松表示任意复杂度的贝叶斯后验的能力预示着科学数据分析的一场革命2
2301
【AAAI 2021】四篇好文简读-专题1
4980
基于神经网络的偏微分方程求解器再度取得突破,北大&字节的研究成果入选Nature子刊
1.6K0
神经ODEs:另一个深度学习突破的细分领域
3.3K0
ResNet架构可逆!多大等提出性能优越的可逆残差网络
1.2K0
NeurIPS 2018 开幕重磅:四篇最佳论文正式揭晓,论文接受全方位数据公开
4640
近九千人齐聚 NeurIPS 2018,四篇最佳论文,十大研究领域,1010 篇论文被接收
3980
可以估计不确定性的神经网络:SDE-Net
1.6K0
Free-form Flows比扩散模型提升两个数量级
1890
高数期末有救了?AI新方法解决高数问题,性能超越Matlab
1.6K0
学界 | 通过扭曲空间来执行数据分类:基于向量场的新型神经网络架构
1.1K0
ResNet与常见ODE初值问题的数值解法
1.2K0
相关推荐
概率建模和推理的标准化流 review2021
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档