Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数

一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数

作者头像
新智元
发布于 2024-01-11 07:52:54
发布于 2024-01-11 07:52:54
5250
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:桃子 好困

【新智元导读】爆火社区的Mixtral 8x7B模型,今天终于放出了arXiv论文!所有模型细节全部公开了。

还记得一个月前,Mistral AI突然公布的一条磁力链接,引爆了整个AI社区。

紧接着,Mixtral 8x7B的技术细节随之公布,其表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍。

甚至,它在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。

今天,这家法国初创正式发布了Mixtral 8x7B混合专家模型(Mixtral of Experts)的论文。

论文地址:https://arxiv.org/abs/2401.04088

网友纷纷表示,最好的开源模型论文终于发布了。

具体技术细节,我们一探究竟。

架构

Mixtral是一个稀疏的混合专家网络,而且是一个纯解码器模型。其中前馈块从一组8个不同的参数组中进行选择。

在每一层,对于每个token,路由网络都会选择其中的两个组「专家」来处理token,并将它们的输出相加。

这项技术不仅增加了模型的参数数量,而且控制了成本和延迟,因为模型每处理一个token只会使用部分参数。

具体来说,Mixtral使用32000个token的上下文信息时进行了预训练。在多项基准测试中,它的性能达到或超过Llama 2 70B和GPT-3.5。

尤其,Mixtral在数学、代码生成和多语言理解任务方面,表现卓越,并在这些领域显着优于Llama 2 70B。

而且研究表明,Mixtral能够成功地从32k token的上下文窗口中检索信息,无论序列长度和信息在序列中的位置如何。

架构细节

Mixtra基于Transformer架构打造,并使用了「Mistral 7B」论文中一些模型修改方法。

但明显不同的是,Mixtral完全支持32k token的全密集上下文长度,并且前馈块被混合专家层(Mixture-of-Expert layer)所取代。先看如下表1,汇总了模型架构的具体参数。

稀疏混合专家

下图所示,研究人员具体介绍了混合专家层。

这是一个处理输入数据的特殊层,在这里,每个输入数据点都会被分配给8个处理单元(称为「专家」)中的2个。

这个分配过程是由一个路由完成的,但这里的路由并不是我们通常说的网络设备,而是神经网络中的一个组件,它负责决定哪些「专家」来处理特定的数据点。

每个「专家」实际上是一个处理模块,它们各自独立处理被分配的数据,并输出结果。

最终,这层的输出结果是由这2个被选中的「专家」的输出经过特定的加权计算后得到的。

在Mixtral这个系统中,每个「专家」其实就是一个标准的前馈网络模块,这种模块也被用在了我们所说的标准Transformer模型架构中。

混合专家层(Mixture of Experts Layer)

MoE层可以在具有高性能专用内核的单个GPU上高效运行。

比如Megablocks将MoE层的前馈网络(FFN)操作转换为大型稀疏矩阵乘法,显着提高了执行速度,并自然地处理不同专家获得分配它们的可变数量token的情况。

此外,MoE层可以通过标准模型并行技术以及一种称为专家并行(EP)的特殊分区策略分布到多个GPU。

在MoE层执行期间,本应由特定专家处理的token将被路由到相应的GPU进行处理,并且专家的输出将返回到原始token位置。

结果

研究人员对Mixtral和Llama进行了对比研究,为了确保比较的公正性,并重新运行了所有的基准测试,这一次采用了内部开发的评估流程。

研究人员在多种不同的任务上进行了性能评估,这些任务可以分为以下几类:

- 常识推理(零样本):包括Hellaswag,Winogrande,PIQA,SIQA,OpenbookQA,ARC-Easy,ARC-Challenge,以及CommonsenseQA

- 世界知识(少样本,5个样本):涵盖了NaturalQuestions和TriviaQA

- 阅读理解(零样本):BoolQ和QuAC

- 数学:GSM8K(少样本,8个样本)使用了多数投票法(maj@8),以及MATH(少样本,4个样本)同样采用了多数投票法(maj@4)

- 编程代码:Humaneval(零样本)和MBPP(少样本,3个样本)

- 综合性测试:MMLU(少样本,5个样本),BBH(少样本,3个样本),还有AGI Eval(少样本,3至5个样本,仅限英语选择题)

可以看到,在所有基准测试中,Mixtral的表现都超过,或至少与Llama 2 70B相当。值得一提的是,在数学和代码生成这两个领域,Mixtral显著优于Llama 2 70B。

Mixtral与不同参数的Llama模型在一系列基准测试中的性能对比

如下表2展示了Mixtral 8x7B、Mistral 7B以及Llama 2 7B/13B/70B和Llama 1 34B的详细结果。

模型参数规模与效率对比

研究人员将Mixtral模型的性能与Llama 2系列做了对比,目的是要探究Mixtral在成本与性能比上的高效性(图3)。

作为一种稀疏的混合专家模型(Sparse Mixture-of-Experts model),Mixtral每处理一个token只需激活13B参数。尽管活跃参数减少了5倍,但Mixtral在大部分领域的表现仍然超过了Llama 2 70B。

此外,需要指出的是,这项分析主要关注活跃参数的数量,这个数量直接关联到推理阶段的计算成本,不过并未涉及内存成本和硬件的使用效率。

用于运行Mixtral的内存成本与其稀疏参数的总数有关,总共为47B,这仍然比Llama 2 70B参数要少。

关于硬件的使用率,研究人员注意到由于专家模型的路由机制,SMoEs层会引入额外的计算成本。

而且当每个硬件设备运行多个专家模型时,由于内存需求增加,也会带来更高的成本。这种模型更适用于可以实现高运算密度的批量处理任务。

与Llama 2 70B和GPT-3.5的性能比较

在表3中,研究人员展示了Mixtral 8x7B与Llama 2 70B、GPT-3.5在性能上的对比结果。

通过对比,研究人员还发现Mixtral在多个方面表现媲美,甚至超越了另外两个模型。

在多模态学习理解(MMLU)的评测中,Mixtral尽管在模型参数量上较小(47B token对比70B),性能却更胜一筹。

至于机器翻译评测(MT Bench),研究人员则是报告了当前最新的GPT-3.5-Turbo模型,即gpt-3.5-turbo-1106版本的性能数据。

可以看到,在所有基准测试中,Mixtral的表现普遍优于Llama 2 70B,唯一的例外是在阅读理解基准测试中,当其激活参数数量仅为Llama 2 70B的1/5时。

特别是在代码和数学领域,Mixtral显著胜过Llama 2 70B。

Mixtral(7B/8x7B)与 Llama 2(7B/13B/70B)在MMLU、常识推理、世界知识、阅读理解、数学和代码方面的比较结果

多语言基准

与Mistral 7B相比较,研究人员在模型预训练阶段,显著提高了多语言数据的比重。

这种增加的模型参数让Mixtral在多语种的性能评估中表现出色,同时还不损失对英语的准确度。

尤其值得一提的是,Mixtral在处理法语、德语、西班牙语和意大利语的任务上,明显胜过了Llama 2 70B,具体成绩可以参见表4。

长距离性能

为了检验Mixtral在处理涉及广泛信息的情境下的表现,研究人员还提出了一项称为passkey检索的任务对其进行测试。

这项任务是专门设计来评估模型在面对一个包含随机插入的passkey的长篇提示信息时,恢复passkey的能力。

图4(左)的结果表明,无论上下文有多长或者passkey出现在文本序列的哪个位置,Mixtral都能保持100%的恢复精度。

而图4(右)则展示了Mixtral在proof-pile数据集的一个子集上的困惑度(perplexity),随着上下文量的增加,其困惑度呈现出单调下降的趋势。

指令微调

此外,研究人员还开发了Mixtral–Instruct模型,首先在一个指令数据集上进行了监督微调(SFT),然后在一个成对的反馈数据集上采用了直接偏好优化(DPO)。

在MT-Bench的评估中,Mixtral–Instruct取得了8.30的高分(表2),成为了截至2023年12月表现最佳的开源权重模型。

LMSys进行的人工评估结果显示在图6,结果表明Mixtral–Instruct的表现超越了GPT-3.5-Turbo、Gemini Pro、Claude-2.1以及Llama 2 70B chat模型。

路由分析

最后,研究人员对路由器如何选择「专家」进行了简要分析。特别是在训练期间,是否会有「专家」选择专攻某些特定的领域(如数学、生物学、哲学等)。

为了探究这一点,研究人员对The Pile验证数据集的不同子集进行了「专家」选择分布的测量,结果如图7所示。涉及模型的第0层、第15层和第31层(最后一层)。

出乎意料的是,这里并没有发现明显的基于主题分配「专家」的模式。

比如,在所有层中,无论是arXiv论文(用LaTeX编写)、生物学领域(PubMed摘要)还是哲学领域(PhilPapers文件),「专家」的分配分布都非常相似。

只有在数学领域(DM Mathematics)中,「专家」的分布略有不同。

研究人员认为,这种差异可能是因为数据集本身是合成的,且对自然语言的覆盖上有限,尤其是在模型的第一层和最后一层,隐藏状态分别与输入和输出嵌入高度相关。

而这也表明,路由器确实表现出了一些结构化的句法行为。

图8展示了不同领域(Python 代码、数学和英语)的文本示例。其中,每个token都用不同的背景色标注,便于查看对应分配到的「专家」。

可以发现,像Python中的「self」和英文中的「Question」这样的词语,虽然包含有多个token,但往往被分配给同一个「专家」。同样,相邻的token也会被分配给同一位「专家」。

在代码中,缩进的token也总是被指派给相同的「专家」,这一点在模型的第一层和最后一层尤为显著,因为这些层的隐藏状态与模型的输入和输出更加紧密相关。

此外,根据The Pile数据集,研究人员还发现了一些位置上的邻近性(positional locality)。

表5展示了在不同领域和网络层中,连续token被同一个「专家」选中的比例。

在网络的上层,这种连续性的重复分配远高于随机分配的概率。这一现象对于模型的优化——加速训练和推理过程,有重要的启示。

例如,在专家并行(Expert Parallelism)处理中,那些位置上具有高邻近性的情况更容易导致某些「专家」被过度使用。不过,这种邻近性也可以用于缓存技术。

关于这些「专家」被选择的频率,图10提供了一个更全面的视角,涵盖了所有网络层和不同的数据集。

结论

在这篇论文中,研究人员介绍了第一个性能达到SOTA的开源专家混合网络——Mixtral 8x7B。

在人类评估基准中,Mixtral 8x7B Instruct的表现超越了Claude-2.1、Gemini Pro以及GPT-3.5-Turbo。

Mixtral的一大特点是,它在处理每个token时,仅激活使用13B参数,而这一数值远低于Llama 2 70B所使用的70B参数。

现在,研究人员已经把训练和微调后的模型在Apache 2.0开源许可下公开,以便社区成员可以自由使用。

参考资料:

https://arxiv.org/abs/2401.04088

https://github.com/mistralai/mistral-src

https://mistral.ai/news/mixtral-of-experts/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
没有长篇官方博客,没有刻意加速的 Demo,这家公司算是当下大模型领域的「一股清流」。
机器之心
2023/12/12
4320
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
前段时间,那个爆火整个开源社区的 Mixtral 8x7B MoE 模型论文放出了。
机器之心
2024/01/11
4670
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
Mistral AI团队自豪地发布了Mistral 7B,这是迄今为止尺寸最小的最强大的语言模型。
zenRRan
2023/10/02
2.5K0
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。
机器之心
2024/01/04
3440
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理
Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新
今天,Meta正式发布了Code Llama 70B,作为Code Llama系列中规模最大,性能最强的版本,一举击败了GPT-4!
新智元
2024/02/06
5000
Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新
最强MOE开源:Mixtral 8x22B 发布!
权重地址:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1
zenRRan
2024/04/19
9110
最强MOE开源:Mixtral 8x22B 发布!
开源大模型新王者:22 人估值 20 亿美元、半年增长七倍,“欧洲 OpenAI”发布媲美 GPT3.5 的“开放权重”模型
Mistral AI 是一家总部位于巴黎的初创公司,由 Meta 和谷歌的研究人员于七个月前创立。目前,该公司已成功筹集 3.85 亿欧元(约合 4.15 亿美元),再次凸显了人们对生成式 AI 的浓厚兴趣。
深度学习与Python
2023/12/14
2500
开源大模型新王者:22 人估值 20 亿美元、半年增长七倍,“欧洲 OpenAI”发布媲美 GPT3.5 的“开放权重”模型
今天!Meta | 发布最大代码生成模型:Code Llama 70B,性能最好
今天,Meta 正式发布 Code Llama 70B,这是 Code Llama 系列有史以来最大、性能最好的型号。
ShuYini
2024/01/31
9870
今天!Meta | 发布最大代码生成模型:Code Llama 70B,性能最好
微软发布Phi-3,性能超Llama-3,可手机端运行
Llama-3 刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。
机器之心
2024/04/26
1770
微软发布Phi-3,性能超Llama-3,可手机端运行
Mistral 大语言模型
Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元
霍格沃兹测试开发Muller老师
2024/09/03
1290
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语言处理任务上的性能也越来越好。
新智元
2024/05/06
5020
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
超越Mixtral 8x7B!Nous | 发布最好的开源 LLM 模型,达到了 SOTA 性能!
从 Llama、Llama 2 到 Mixtral 8x7B,开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5,因此它也被认为是一种「非常接近 GPT-4」的开源选项。
ShuYini
2024/01/17
4440
超越Mixtral 8x7B!Nous | 发布最好的开源 LLM 模型,达到了 SOTA 性能!
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
当地时间 1 月 29 日,Meta 发布了 Code Llama 70B,Meta 表示这是“Code Llama 家族中体量最大、性能最好的模型版本”。Code Llama 70B 与先前其他家族模型一样提供三种版本,且均可免费用于研究和商业用途:
深度学习与Python
2024/02/17
1.3K0
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。
新智元
2023/12/14
3250
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
在大多数基准测试中,Mixtral的表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍!
新智元
2023/12/12
5030
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
不同于大多数模型使用字母缩略起名,论文作者在脚注中解释道,Lory是一种羽毛有彩虹颜色的鹦鹉,和「软MoE」的精神非常相似。
新智元
2024/05/22
1270
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
见状,不少网友纷纷喊话:干的漂亮!但,Stable Diffusion 3啥时候出啊?
新智元
2024/04/12
1490
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
87GB的种子,8x7B的MoE架构,看起来就像一款mini版「开源GPT-4」!
新智元
2023/12/12
5020
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用
业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?
新智元
2024/04/19
2200
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用
全球最强开源模型一夜易主,1320亿参数推理飙升2倍!
刚刚,超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。
新智元
2024/03/29
2340
全球最强开源模型一夜易主,1320亿参数推理飙升2倍!
推荐阅读
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
4320
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
4670
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
2.5K0
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理
3440
Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新
5000
最强MOE开源:Mixtral 8x22B 发布!
9110
开源大模型新王者:22 人估值 20 亿美元、半年增长七倍,“欧洲 OpenAI”发布媲美 GPT3.5 的“开放权重”模型
2500
今天!Meta | 发布最大代码生成模型:Code Llama 70B,性能最好
9870
微软发布Phi-3,性能超Llama-3,可手机端运行
1770
Mistral 大语言模型
1290
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
5020
超越Mixtral 8x7B!Nous | 发布最好的开源 LLM 模型,达到了 SOTA 性能!
4440
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
1.3K0
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
3250
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
5030
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
1270
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
1490
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
5020
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用
2200
全球最强开源模型一夜易主,1320亿参数推理飙升2倍!
2340
相关推荐
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档