前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Google Brain:从不废话,直接扔大

Google Brain:从不废话,直接扔大

作者头像
炼丹笔记
发布于 2021-05-14 08:52:29
发布于 2021-05-14 08:52:29
1K0
举报
文章被收录于专栏:炼丹笔记炼丹笔记

作者:九羽,三品炼丹师

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Google Brain科学家Barret Zoph表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,可以将语言模型的参数量扩展至 1.6 万亿。万万没想到,模型规模的演进如此之快,没几个月的时间,就从千亿走向了万亿,当我们还在研究BERT的各种迭代时,世界上那批顶尖的人已经开启了另一扇“暴力美学”的大门。而这,才是真正的深度领域的“军备竞赛“。

本文摘要

对于长文没有阅读习惯的朋友,可以直接读一下本文摘要。

(1)Switch Transformer在网络结构上最大的改进是Sparse routing的稀疏结构,相比于OpenAI在GPT-3里所使用的Sparse Attention,需要用到稀疏算子而很难发挥GPU、TPU硬件性能的问题。Switch Transformer不需要稀疏算子,可以更好的适应GPU、TPU等硬件。

(2)Switch Transformer虽然有1.6万亿参数,但通过Sparse routing的改进,每轮迭代只会触发部分Expert的计算,而每个token也只会路由给一个Expert,所以对算力的需求并没有随着参数量的增加而大幅增长,使得这个模型更加容易训练。

(3)数据并行、模型并行、Expert并行的并行策略设计,在MoE网络结构上能够获得更低的通信开销,提高并行的效率。

背景

深度学习中,模型通常对所有输入重复使用相同的参数。而MoE模型则是为每个例子选择不同的参数。于是一个稀疏激活的模型(参数数量惊人但计算成本不变)诞生了。然而,尽管取得了一些显著的成功,但由于复杂性、通信成本和训练的不稳定性,模型广泛采用仍需优化。

我们用Switch Transformer来解决这些问题。同时,我们简化了MoE路由算法,设计了直观的改进模型,降低了通信和计算成本。我们提出的训练方法减轻了不稳定性,并且我们首次展示了用较低精度(bfloat16)格式训练大型稀疏模型的可能性。

同时,基于T5 Base和T5 Large(Raffel et al.,2019)设计模型,以在相同计算资源的情况下获得高达7倍的预训练速度。这些改进扩展到多语言设置中,我们在所有101种语言中测量mT5基本版本的增益。最后,通过在“巨大的干净的爬虫语料库”上预训练多达万亿个参数的模型,提高了当前语言模型的规模,并实现了比T5-XXL模型4倍的加速。

Switch Transformer

大规模训练是实现灵活和强大的神经语言模型的有效途径。虽然有效,但计算量也非常大(Strubell等人,2019年)。为了提高计算效率,我们提出了一种稀疏激活模型:Switch Transformer。在我们的例子中,稀疏性来自于为每个传入的例子激活一个子集的神经网络权重。

Switch Transformer编码块

Switch Transformer在Mix of Expert的基础上,采用sparsely activated方法,只使用了模型权重的子集,转换模型内输入数据的参数达成相同的效果。

什么是MoE?

MoE(Mix of Expert)是一种神经网络,也属于一种combine的模型,上个世纪90年代被提出。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型,各个模型被称为专家,而门控模块用于选择使用哪个专家,模型的实际输出为各个模型的输出与门控模型的权重组合。各个专家模型可采用不同的函数(各种线性或非线性函数)。混合专家系统就是将多个模型整合到一个单独的任务中。

数据和权重划分策略

在分布式训练设置中,模型将不同的权重分配到不同的设备上,虽然权重会随着设备数量的增加而增加,但每个设备可以保持内存和计算足迹的自我管理。

效果

性能

Switch Transformer在许多任务上的效果有提升。

(1)在使用相同数量的计算资源的情况下,它可以使预训练的速度提高了7倍以上。

(2)大型稀疏模型可以用来创建更小、更稠密的模型,这些模型可以对任务进行微调,其质量增益只有大型模型的30% 。

(3)Switch Transformer 模型在100多种不同的语言之间进行翻译,研究人员观察到其中101种语言都得到提升 ,而其中91% 超过基线模型4倍以上的速度。

Switch的Attention机制

Shazeer(2018)和Lepikhin(2020)通过将MoE层添加到Transformer的密集前馈网络(FFN)计算中,设计了MoE变压器(Shazeer et al.,2017)。同样,我们的工作也替换了变压器中的FFN层,但在此简要探讨了另一种设计。我们将开关层添加到Transformer自我注意层中。为此,我们将生成查询、键和值的可训练权重矩阵替换为交换层。

No-Token-Left-Behind机制

由于TPU加速器的限制,我们的张量的形状必须是静态的。因此,每个expert都有处理token表示的有限且固定的能力。然而,这为我们的模型提出了一个问题,该模型在运行时动态路由token,这可能导致在exper上的不均匀分布。

如果发送给exper的token数小于exper容量,那么计算可能只是简单地进行填充——这是对硬件的低效使用,但在数学上是正确的。但是,当发送给exper的令牌数大于其容量(exper溢出)时,需要一个协议来处理这个问题。Lepikhin等人(2020年)采用了exper模型的混合模型,并通过将其表示传递到下一层来解决exper溢出问题,而无需通过我们也遵循的剩余连接进行处理。

上下游模型性能关系

不能保证一个模型在训练前目标上的效果会转化为下游任务的结果。下图显示了上游模型质量的相关性,包括稠密模型和非稠密模型和Switch模型,在C4预训练任务上使用两个下游任务度量:平均SuperGLUE性能和TriviaQA分数。我们选择这两个任务作为一个探索模型的推理和其他事实知识。

Switch Transformer伪代码

小结

总结来说,Switch Transformers模型有两个创新:

(1)基于Transformer MoE网络结构,简化了MoE的routing机制,降低了计算量;

(2)进一步通过数据并行、模型并行、Expert并行的方式降低了训练通信量,提升训练性能。

参考文献

1. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity:https://arxiv.org/pdf/2101.03961.pdf

2. https://www.zhihu.com/question/439162583/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MoE训练论文解读之Megablocks:打破动态路由限制
GPT-4用了Mixture-of-Experts(MoE)架构,引起了广泛关注。然而,MoE训练并不是一项简单的任务,它面临着一些主要的挑战和难点:
NewBeeNLP
2023/11/08
2.1K0
MoE训练论文解读之Megablocks:打破动态路由限制
1.6万亿参数的语言模型:谷歌大脑提出Switch Transformer,预训练速度可达T5的7倍
在深度学习领域,模型通常会对所有输入重用相同的参数。但 Mixture of Experts (MoE,混合专家) 模型是个例外,它们会为每个输入的例子选择不同的参数,结果得到一个稀疏激活模型——虽然参数量惊人,但计算成本恒定。
机器之心
2021/01/20
8070
稀疏性在机器学习中的发展趋势:MoE、稀疏注意力机制
每天给你送来NLP技术干货! ---- 作者:唐工 来源:https://zhuanlan.zhihu.com/p/463352552 编辑:李rumor Sparsity, ..., is another important algorithmic advance that can greatly improve efficiency. 稀疏性,是(神经架构搜索)之外另一个重要的算法进步,可以大大提高效率。The use of sparsity in models is ... very high po
zenRRan
2022/03/15
6.4K0
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
知乎:Verlocksss 编辑:马景锐 链接:https://zhuanlan.zhihu.com/p/675216281
zenRRan
2024/01/11
8.2K0
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
北大校友“炼丹”分享:OpenAI如何训练千亿级模型?
“炼大模型”已成为人工智能领域的主流研发趋势。从GPT-3的1750亿,到如今悟道2.0的1.75万亿,超大语言模型在 NLP 基准任务中不断刷新SOTA。
AI科技评论
2021/10/11
1.5K0
北大校友“炼丹”分享:OpenAI如何训练千亿级模型?
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。怎么理解?
AI科技评论
2024/06/03
9960
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
Mixture-of-Experts (MoE) 经典论文一览
最近接触到 Mixture-of-Experts (MoE) 这个概念,才发现这是一个已经有30多年历史、至今依然在被广泛应用的技术,所以读了相关的几篇经典论文,在这里总结一下。
beyondGuo
2022/12/01
2.3K0
Mixture-of-Experts (MoE) 经典论文一览
1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
迄今为止,OpenAI 的 GPT-3是有史以来最大的语言模型之一,有1750亿个参数。
新智元
2021/01/25
9090
2020年AI领域有哪些让人惊艳的研究?
前段时间,Google Brain科学家Barret Zoph表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,将语言模型的参数量扩展至 1.6 万亿同时带来了诸多评测上的提升。
炼丹笔记
2021/05/14
4960
2020年AI领域有哪些让人惊艳的研究?
30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
机器之心报道 机器之心编辑部 30年时间,稀疏专家模型已逐渐成为一种很有前途的解决方案。 稀疏专家模型是一个已有 30 年历史的概念,至今依然被广泛使用,是深度学习中的流行架构。此类架构包括混合专家系统(MoE)、Switch Transformer、路由网络、BASE 层等。稀疏专家模型已经在自然语言处理、计算机视觉和语音识别等多个领域展示出良好的性能。 近日,谷歌 AI 负责人 Jeff Dean 等人撰写了一篇稀疏专家模型的综述,回顾了稀疏专家模型的概念,提供了通用算法的基本描述,最后展望了未来的研究
机器之心
2022/10/08
4890
30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。
机器之心
2024/01/23
3770
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
随着AI技术不断发展,AI大模型(又称预训练模型)逐渐成为产业中最火热的技术名词。
量子位
2022/12/09
2.1K0
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
选自Lilian Weng的博客 作者:Lilian Weng 机器之心编译 编辑:赵阳 本文是一篇综述性的博客,探讨总结当下常用的大型 transformer 效率优化方案。 大型 Transformer 模型如今已经成为主流,为各种任务创造了 SOTA 结果。诚然这些模型很强大,但训练和使用起来代价非常昂贵。在时间和内存方面存在有极高的推理成本。概括来说,使用大型 Transformer 模型进行推理的难点,除了模型的规模不断扩大外,还有两个不可忽略的地方: 内存消耗大:推理时,需要把模型参数和中间状
机器之心
2023/03/29
2K0
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
[AI学习笔记]DeepSeek混合专家系统(MoE)架构深度解析
在人工智能和机器学习领域,模型架构的设计对于任务性能至关重要。随着数据规模和模型复杂度的不断增长,传统的单一专家模型在处理大规模、多样化的任务时逐渐暴露出局限性。为了突破这一瓶颈,混合专家系统(Mixture of Experts,MoE)应运而生。DeepSeek作为基于MoE架构的先进系统,在处理复杂任务时展现出了卓越的性能和灵活性,为人工智能技术的发展和应用开辟了新的道路。
数字扫地僧
2025/03/17
1K0
大模型微调新范式:当LoRA遇见MoE
左侧:原始版本的LoRA,权重是稠密的,每个样本都会激活所有参数;右侧:与混合专家(MoE)框架结合的LoRA,每一层插入多个并行的LoRA权重(即MoE中的多个专家模型),路由模块(Router)输出每个专家的激活概率,以决定激活哪些LoRA模块。
zenRRan
2024/03/02
2.9K0
大模型微调新范式:当LoRA遇见MoE
谷歌新语言模型Switch Transformer
在过去的三年中,基于transformer的语言模型(LMs)在自然语言处理(NLP)领域一直占据着主导地位。Transformer 通常是在大量非结构化文本上预先训练的巨大网络,它能够捕捉有用的语言属性。然后,我么可以对预先训练的模型进行微调,以适应各种各样的最终任务,如回答问题或机器翻译,通过微调即使是在少量的标记数据上也可以训练出可用的模型。Switch Transformer发布前,谷歌的T5模型一直是多个NLP基准上的记录保持者,但是最近被它自己的Switch Transformer超越。
deephub
2021/02/12
9950
谷歌新语言模型Switch Transformer
大模型系列之解读MoE
Mixtral 8x7B 的推出, 使我们开始更多地关注 基于MoE 的大模型架构, 那么,什么是MoE呢?
半吊子全栈工匠
2024/05/07
1.6K0
大模型系列之解读MoE
ImageNet准确率超过90%!谷歌大脑开源V-MoE,用稀疏条件计算来训练目前最大的视觉模型!(NeurIPS 2021)
稀疏的专家混合网络 (Sparsely-gated Mixture of Experts networks (MoEs)) 在自然语言处理中显示出出色的可扩展性。然而,在计算机视觉中,几乎所有SOTA网络都是 “密集的”,也就是说,对于每个输入,每个参数都要参与计算 。
CV君
2022/03/23
9340
ImageNet准确率超过90%!谷歌大脑开源V-MoE,用稀疏条件计算来训练目前最大的视觉模型!(NeurIPS 2021)
谷歌开源巨无霸语言模型Switch Transformer,1.6万亿参数!
距GPT-3问世不到一年的时间,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数。
昱良
2021/03/10
1K0
详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高
Transformer最近在各种任务上取得了令人瞩目的成果。为了进一步提高Transformer的有效性和效率,现有工作中有2种思路:
集智书童公众号
2021/07/30
1.6K0
推荐阅读
MoE训练论文解读之Megablocks:打破动态路由限制
2.1K0
1.6万亿参数的语言模型:谷歌大脑提出Switch Transformer,预训练速度可达T5的7倍
8070
稀疏性在机器学习中的发展趋势:MoE、稀疏注意力机制
6.4K0
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
8.2K0
北大校友“炼丹”分享:OpenAI如何训练千亿级模型?
1.5K0
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
9960
Mixture-of-Experts (MoE) 经典论文一览
2.3K0
1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
9090
2020年AI领域有哪些让人惊艳的研究?
4960
30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
4890
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
3770
腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型
2.1K0
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
2K0
[AI学习笔记]DeepSeek混合专家系统(MoE)架构深度解析
1K0
大模型微调新范式:当LoRA遇见MoE
2.9K0
谷歌新语言模型Switch Transformer
9950
大模型系列之解读MoE
1.6K0
ImageNet准确率超过90%!谷歌大脑开源V-MoE,用稀疏条件计算来训练目前最大的视觉模型!(NeurIPS 2021)
9340
谷歌开源巨无霸语言模型Switch Transformer,1.6万亿参数!
1K0
详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高
1.6K0
相关推荐
MoE训练论文解读之Megablocks:打破动态路由限制
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档