社区首页 >专栏 >距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

OpenMMLab 官方账号

发布于 2023-12-13 06:16:01

5580

文章被收录于专栏：OpenMMLabOpenMMLab

随着 ChatGPT 的发布，大模型进入快速发展期，2023 年 2 月 Llama 模型的开源更是为社区注入新的活力，推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。国产大模型诸如 ChatGLM、Baichuan、InternLM、Qwen 和 DeepSeek 等，以其卓越的性能和本土化优势，吸引了广泛的关注和讨论。在国际舞台上，Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐，开源模型的创新和潜力不断激发着社区的探索热情。

Mistral AI：简单点，做开源的方式简单点

在这场开源社区的"百模大战"中，Mistral AI 这家欧洲大模型初创企业，近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型，再次点燃了整个开源界的热情。与其他公司不同，Mistral AI 采取了截然不同的策略，他们低调行事，不搞铺天盖地的宣传，而是在短短两个月的时间里，直接在 X 上提供两个磁力链接，简单、直接、高效，没有多余的废话，这种做法在开源社区中独树一帜，更是彰显出他们对于技术的纯粹追求。

Mixtral 是什么模型？

Mixtral 8x7B 是 Mistral AI 全新发布的 MoE 模型，MoE 是 Mixture-of-Experts 的简称，具体的实现就是将 Transformer 中的 FFN 层换成 MoE FFN 层，其他部分保持不变。在训练过程中，Mixtral 8x7B 采用了 8 个专家协同工作，而在推理阶段，则仅需激活其中的 2 个专家。这种设计巧妙地平衡了模型的复杂度和推理成本，即使在拥有庞大模型参数的情况下，也能保证高效的推理性能，使得 MoE 模型在保持强大功能的同时，也具备了更优的实用性和经济性。

我们精心制作了 Llama 与 Mixtral 两个模型架构的对比图表，图中清晰展示了两者之间的主要差异所在——尤其是 FFN 层的设计。

在 Reddit 上的热烈讨论中，社区也普遍推测 GPT-4 可能也采用了 MoE（Mixture-of-Experts）架构。如果这一推断属实，MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里，整个开源社区已经围绕 MoE 模型展开了深入的研究和探索，但鲜有性能优异的 MoE 开源模型问世。

图：https://zhuanlan.zhihu.com/p/399496787

拥有 8 个专家的 Mixtral 能力几何

根据 Mistral 官方的详细介绍，Mixtral-8x7B 模型拥有 32k 的上下文长度，并具备多语言处理能力，包括英语、法语、意大利语和西班牙语。它在数学问题和代码生成的任务上表现尤为出色。

Mixtral 8x7B 大幅超过前代模型 Mistral 7B，在部分能力上甚至追平或者超越 Llama-2-70B 模型，这无疑将会在开源社区引发一波新的关注。

图：https://mistral.ai/news/mixtral-of-experts/

红色点代表 Llama-2 的各个尺寸的模型性能

OpenCompass 团队在这个周末对 Mixtral 模型进行了全面评测。结果显示，Mixtral 在多个能力维度上，包括学科知识、数学、编程、阅读理解和常识推理等方面，都展现了卓越的性能。值得注意的是，Mixtral 的表现不仅在近期开源模型中脱颖而出，甚至与上个月发布的 DeepSeek-67B 和 Qwen-72B 等模型相比也显示出了强劲的竞争力。此外，Mixtral-8x7B 的实际激活参数量大约只有 12B 左右，这证明基于 MoE 的高效模型设计，也能实现了以较小的模型规模达到大型模型的性能水平，真正实现“以小博大”。