Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >马斯克的AI第一枪,被华人科学家大将打响!xAI首个研究成果:训练无限深度神经网络

马斯克的AI第一枪,被华人科学家大将打响!xAI首个研究成果:训练无限深度神经网络

作者头像
大数据文摘
发布于 2023-10-28 03:05:48
发布于 2023-10-28 03:05:48
3960
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘受权转载自头部科技

文 | Congerry

几个月前,马斯克通过 Twitter 宣布自己的人工智能公司xAI正式成立:成立一家 xAI 公司去了解宇宙的真实本质。

当时,xAI官宣了11名AI领域的顶尖科学家和工程师。

其中之一就是Greg Yang(杨格),他在官宣加入xAI时表示,大型神经网络的“万物理论”是人工智能的关键,也是揭示数学宇宙奥秘的途径。

近日,杨格也发表了一篇关于神经网络架构的新作——Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks。

这篇文章是杨格之前开发的一种用来描述神经网络结构的编程语言Tensor Programs系列论文的第六篇,主要研究无限深度神经网络中特征学习的问题——残差网络(resnets)的深度参数化方法,而Tensor Programs相关成果在GPT-4中已有应用。

如何训练一个无限深度神经网络

残差网络是一种深度学习的模型,它可以通过在每个块中添加一个跳跃连接(skip connection),使得网络的输出可以直接加上输入,从而避免了深度增加时,网络性能下降的问题。

但是,残差网络并不是完美的,它仍然有一些挑战和困难:

  • 当网络加深时,每个块的输出(也就是特征)会变得越来越大,这会导致网络的计算量和内存消耗增加,同时也会影响网络的稳定性和泛化能力。
  • 当网络加深时,原来的超参数(比如学习率、权重衰减等)可能不再适用,需要重新调整。这会增加训练的时间和难度,也会影响最终的结果。

因此,训练一个好的深度残差网络仍然是一件不容易的事情,需要考虑很多因素和细节。

论文作者通过分析无限宽度然后无限深度的极限情况,对不同的深度参数化方法进行了分类。

然后,论文作者发现了一种独特的最优参数化方法,叫做Depth-μP,它是之前提出的μP方法的扩展,可以保证在无限深度的极限下,网络的特征学习和特征多样性都达到最大。

论文作者表示,深度 μP 极限更像是神经 SDE,因为相邻层仅弱相关,并且 xᵐ 仅在 (m/L) 中保持 Holder 连续,指数 ≈1/2。我们也将此 Holder 指数称为 resnet 的“特征多样性指数”。但从数学上讲,它比典型的 SDE 更疯狂,因为在每一层添加的噪声“了解”更深的层(由于训练;这很重要,因为否则此计算没有用!)

为什么深度 μP有帮助?论文作者表示,作为反例,考虑 φ=id(奇数)的线性模型。然后简单计算发现,当 L 很大时,相邻的 Wᵐ 和 Wᵐ⁺¹ 本质上是相同的。

另一方面,偶数 Φ 意味着奇数 Φ'。在 Depth-μP 中,Wᵐ 在 m 上仅弱相关,因此相邻层的 φ'(Wᵐxᵐ)) 几乎没有相关性。因为 Wᵐ 的梯度乘法取决于 φ'(Wᵐxᵐ)),所以这会去相关这些梯度。

但当残差块深度≥2时,还是会出现超参数迁移失败和训练性能下降的问题。

论文作者指出,目前还没有一种可靠的深度缩放方法可以适用于Transformer,因为Transformer的结构比较复杂,每个块都有多层,并且有自注意力机制(self-attention)和残差连接(residual connections)等。

论文作者表示,可能我们没有考虑到一些重要的超参数,导致我们无法找到最优的深度缩放方法。

因此,作者提出了一个重要的未来方向,就是识别出这些重要的超参数,并且设计出一种适用于Transformer的深度缩放方法。

关于杨格

杨格出生于湖南,北京读完小学后赴美,进入哈佛数学系。大二时,杨格休学一年半追音乐梦,后认识到数学是自己的真爱,重新回到哈佛。

之后他再次休学两年,快速学习数学、计算机科学和人工智能等前沿知识。回哈佛后,杨格师从丘成桐教授,2017年获得数学和计算机双学位,并获得摩根奖荣誉提名。

毕业时丘成桐建议杨格不要去谷歌,而是加入微软研究院。杨格进入微软后表现优异,尤其是在GPT研发中做出重要贡献。他在微软期间持续开发Tensor Programs框架,用GPT-3验证所提超参数迁移方法,相关成果发表于顶会。

今年7月,马斯克宣布成立新公司xAI,杨格离开微软,加入xAI创始团队,研究方向是“Math for AI”和“AI for Math”。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
马斯克xAI创始成员国内首发声:ChatGPT时代「乱世出英雄」,下一步要多用数学科学数据训练
相比专注于AI领域本身,这些成员大多具有基础学科背景,接触AI之前或是在研究基础数学,或是在搞物理。
量子位
2023/09/08
2300
马斯克xAI创始成员国内首发声:ChatGPT时代「乱世出英雄」,下一步要多用数学科学数据训练
单个GPU无法训练GPT-3,但有了这个,你能调优超参数了
机器之心报道 编辑:陈萍、小舟 模型越大,超参数(HP)调优成本越高,微软联合 OpenAI 提出 HP 调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。 伟大的科学成就不能仅靠反复试验取得。例如太空计划中的每一次发射都是基于数百年的空气动力学、推进和天体等基础研究。同样,在构建大规模人工智能系统时,基础研究大大减少了试错次数,效益明显。 超参数(Hyperparameter,HP)调优是深度学习的关键,但也是一个昂贵的过程,对于具有数十亿参数的神经网络来说更是如此。假如 HP 选择不当,会导致
机器之心
2022/03/09
1.1K0
Reddit热文:MIT\北大\CMU合作, 找到深度神经网络全局最优解
在目标函数非凸的情况下,梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明,对于具有残差连接的超参数化的深度神经网络(ResNet),采用梯度下降可以在多项式时间内实现零训练损失。
新智元
2018/12/14
4380
烧脑!CMU、北大等合著论文真的找到了神经网络的全局最优解
作者:Simon S. Du、Jason D. Lee、Haochuan Li、Liwei Wang、Xiyu Zhai
机器之心
2018/12/13
5900
X / Twitter 更新隐私政策,马斯克要拿用户数据训练 AI了
最近两天,X(原名Twitter,推特)突然更新了隐私政策,在2.1条例中,X明确写道:
大数据文摘
2023/09/06
4250
X / Twitter 更新隐私政策,马斯克要拿用户数据训练 AI了
谷歌开源Neural Tangents:简单快速训练无限宽度神经网络
近日,谷歌一项研究成果在社区引发了关注,该研究宣称可通过神经正切核(Neural Tangent Kernel)使用贝叶斯推理或梯度下降分析式地训练无限宽度的神经网络。使用谷歌开源的软件库 Neural Tangents,这个过程不仅简单且快速,而且效果非常好,甚至只需 5 行代码就能一步到位地构建并训练这种无限宽度网络的集成模型!该论文已被 ICLR 2020 接收为 Spotlight 论文,相关链接见文末。
机器之心
2020/04/14
7820
谷歌开源Neural Tangents:简单快速训练无限宽度神经网络
ICLR 2020 | 神经正切,5行代码打造无限宽的神经网络模型
本文是对 ICLR 2020 论文《NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON》的解读,作者来自谷歌。
AI科技评论
2020/04/21
5850
ICLR 2020 | 神经正切,5行代码打造无限宽的神经网络模型
业界 | 解释深度神经网络训练全过程:谷歌发布SVCCA
选自Google Research 作者:Maithra Raghu 机器之心编译 参与:李泽南、路雪 SVCCA 是谷歌大脑提出的一个简单、可扩展的工具,可以帮助开发者获知各类深度神经网络在训练过程中模型内部的表征,为开发者们带来洞见。该工作的论文已经被 NIPS 2017 大会接收,在下周举行的大会上,谷歌还将更深入展示新工具的特点。 深度神经网络(DNN)促使计算机视觉、语言理解和语音识别领域出现了前所未有的进步。但是这些成功也伴随着新的挑战。尤其是,和之前很多机器学习方法不同,DNN 易受分类中的对
机器之心
2018/05/09
7090
业界 | 解释深度神经网络训练全过程:谷歌发布SVCCA
探索无限大的神经网络
平时难住我们的是,有再多资源也承载不了无限大的网络。但其实可以证明无限宽的网络和核方法是等效的,给了我们揭开无限宽网络面纱的机会。另外我们还有一些额外的收获——原来核方法和神经网络也沾亲带故。
AI科技评论
2019/10/14
7940
探索无限大的神经网络
马斯克高调官宣AI公司,华人成创始团队主力:吴宇怀、Jimmy Ba、杨格、张国栋、戴子航加盟
今天,马斯克又搞出了一个大新闻。他在推特上宣布:成立了一家 xAI 公司,宗旨是「了解宇宙的真实本质」。
机器之心
2023/08/07
4600
马斯克高调官宣AI公司,华人成创始团队主力:吴宇怀、Jimmy Ba、杨格、张国栋、戴子航加盟
既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型
如果你尝试过目前最火的 AI 绘画工具之一 Stable Diffusion,那你就已经体验过扩散模型(diffusion model)那强大的生成能力。但如果你想更进一步,了解其工作方式,你会发现扩散模型的形式其实有很多种。
机器之心
2023/09/08
5740
既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型
【AIDL专栏】纪荣嵘:深度神经网络压缩及应用
深度神经网络(DNN)起源于人工神经网络(ANN),传统的ANN虽然有很多科研成果,但是距离实际应用很远。DNN是ANN的扩展,基本想法是把ANN做的更深,使模型具有更强的表现力。由于数据集成指数级别增长,并且有越来越多类似GPU的设备应用,使DNN的运算能力爆发式增长,得以广泛应用。
马上科普尚尚
2020/05/11
1.1K0
学界 | Yoshua Bengio等提出深度复数网络:用复数构建深度神经网络(已开源)
选自arXiv 机器之心编译 参与:吴攀 目前绝大多数深度学习模型中的数学都是实数值的,近日,蒙特利尔大学、加拿大国家科学院-能源/材料/通信研究中心(INRS-EMT)、微软 Maluuba、Element AI 的多名研究者(其中包括 CIFAR Senior Fellow Yoshua Bengio)在 arXiv 上发布了一篇 NIPS 2017(今年 12 月在美国 Long Beach 举办)论文,提出了一种可用于复数值深度神经网络的关键组件,该团队也已经在 GitHub 上开源了相关研究代码。
机器之心
2018/05/07
3K0
学界 | Yoshua Bengio等提出深度复数网络:用复数构建深度神经网络(已开源)
学界 | 找到神经网络的全局最小值到底有多难?
在细致解读微软研究院的这篇论文之前,读者们可以先了解下微软这篇论文与 Simon S. Du 等人论文的对比(详见微软这篇论文的第二页)。
机器之心
2018/12/14
7550
入门深度学习,理解神经网络、反向传播算法是第一关
因为计算机能做的就只是计算,所以人工智能更多地来说还是数学问题[1]。我们的目标是训练出一个模型,用这个模型去进行一系列的预测。于是,我们将训练过程涉及的过程抽象成数学函数:首先,需要定义一个网络结构,相当于定义一种线性非线性函数;接着,设定一个优化目标,也就是定义一种损失函数(loss function)。
机器学习AI算法工程
2019/10/28
7780
入门深度学习,理解神经网络、反向传播算法是第一关
7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文包括 DeepMind 用 AI 复原古希腊铭文,登 Nature 封面;微软联合 OpenAI 提出超参数调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。 目录: Restoring and attributing ancient texts using deep neural networks Tensor Programs V: Tuning Large Neural Networks v
机器之心
2022/03/14
3070
【深入探讨 ResNet:解决深度神经网络训练问题的革命性架构】
随着深度学习的快速发展,卷积神经网络(CNN)已经成为图像识别、目标检测等计算机视觉任务的主力军。然而,随着网络层数的增加,训练深层网络变得愈加困难,主要问题是“梯度消失”和“梯度爆炸”问题。幸运的是,ResNet(Residual Networks)通过引入“残差学习”概念,成功地解决了这些问题,极大地推动了深度学习的发展。
机器学习司猫白
2025/02/13
4040
微软最新机器学习研究引入 μTransfer:一种新技术,仅使用 7% 的预训练计算即可调整 67 亿参数的 GPT-3 模型
科学家们进行试错程序,这些试验多次导致科学突破。同样基础研究提供了开发大规模人工智能系统的理论见解,从而减少了所需的试错量,并且非常具有成本效益。
代码医生工作室
2022/04/14
8120
微软最新机器学习研究引入 μTransfer:一种新技术,仅使用 7% 的预训练计算即可调整 67 亿参数的 GPT-3 模型
如何训练深度神经网络?
译文:《How to train your Deep Neural Network》
机器学习算法工程师
2018/07/26
8770
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解
1、相关知识 从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。有很多人认为,它们并没有可比性,或是根本没必要放在一起比较。在实际应用中,所谓的深度神经网络DNN,往往融合了多种已知的结构,包括convolution layer 或是 LSTM 单元。其实,如果我们顺着神经网络技术发展的脉络,就很容易弄清这几种网络结构发明的初衷,和他们之间本质的区别。 2、神经网络发展 2.1 感知机 神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输
机器学习AI算法工程
2018/03/09
2.1K0
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解
推荐阅读
马斯克xAI创始成员国内首发声:ChatGPT时代「乱世出英雄」,下一步要多用数学科学数据训练
2300
单个GPU无法训练GPT-3,但有了这个,你能调优超参数了
1.1K0
Reddit热文:MIT\北大\CMU合作, 找到深度神经网络全局最优解
4380
烧脑!CMU、北大等合著论文真的找到了神经网络的全局最优解
5900
X / Twitter 更新隐私政策,马斯克要拿用户数据训练 AI了
4250
谷歌开源Neural Tangents:简单快速训练无限宽度神经网络
7820
ICLR 2020 | 神经正切,5行代码打造无限宽的神经网络模型
5850
业界 | 解释深度神经网络训练全过程:谷歌发布SVCCA
7090
探索无限大的神经网络
7940
马斯克高调官宣AI公司,华人成创始团队主力:吴宇怀、Jimmy Ba、杨格、张国栋、戴子航加盟
4600
既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型
5740
【AIDL专栏】纪荣嵘:深度神经网络压缩及应用
1.1K0
学界 | Yoshua Bengio等提出深度复数网络:用复数构建深度神经网络(已开源)
3K0
学界 | 找到神经网络的全局最小值到底有多难?
7550
入门深度学习,理解神经网络、反向传播算法是第一关
7780
7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数
3070
【深入探讨 ResNet:解决深度神经网络训练问题的革命性架构】
4040
微软最新机器学习研究引入 μTransfer:一种新技术,仅使用 7% 的预训练计算即可调整 67 亿参数的 GPT-3 模型
8120
如何训练深度神经网络?
8770
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解
2.1K0
相关推荐
马斯克xAI创始成员国内首发声:ChatGPT时代「乱世出英雄」,下一步要多用数学科学数据训练
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档