性能翻倍的Gemma 2, 让同量级的Llama3怎么玩?
AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。
除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包括CodeGemma、RecurrentGemma和PaliGemma——每个模型都为不同的AI任务提供独特的能力,并且可以通过与Hugging Face、NVIDIA和Ollama等合作伙伴轻松访问。
现在,Gemma家族迎来新成员——Gemma 2,延续短小精悍传统。Gemma 2此次提供的90亿(9B)和270亿(27B)参数的两个版本,其推理性能和效率均优于第一代,并具有显著的安全性改进。事实上,270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争,并且提供了此前只有专有模型才能实现的性能,而这种性能现在可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现,从而大大降低了部署成本。
谷歌团队在重新设计的架构上构建了Gemma 2,使得这位Gemma家族的新成员既能提供卓越的性能,又具有高效的推理能力。简要概括一下,性能、成本、推理是它的突出特点:
以上是 Gemma2 与 Llama3、Grok-1 的得分数据对比。
其实从各项得分数据来看,此次开源的 9B 大模型优势不是特别明显。近1个月前智谱AI 开源的国产大模型 GLM-4-9B 更具有优势。
此外,Gemma 2不仅更强大,还设计得更易于集成到工作流程中。谷歌为开发者提供了更多的可能性,让他们能够更轻松地构建和部署AI解决方案。
谷歌还提供了由一系列实用示例和指南构成的新Gemma Cookbook,旨在帮助构建使用者自己的应用程序并针对特定任务微调Gemma 2模型。
Gemma Cookbook链接:https://github.com/google-gemini/gemma-cookbook
与此同时,谷歌还向开发者提供了前段时间在I/O大会上官宣的Gemini 1.5 Pro的200万上下文窗口访问权限、Gemini API的代码执行功能,并在Google AI Studio中添加了Gemma 2。
以下是Gemma2的技术实验报告,我们可以从多个角度深度解析了技术细节。
技术细节
与之前的 Gemma 模型类似,Gemma 2 模型也是基于仅解码器的transformer架构。表 1 总结了模型的主要参数和架构选择。
部分结构要素与第一版 Gemma 模型相似,即上下文长度为 8192 个 token、使用旋转位置嵌入(RoPE)和近似 GeGLU 非线性。Gemma 1 和 Gemma 2 有一些不同之处,包括使用了更深的网络。主要差异总结如下:
谷歌提供了预训练部分不同于Gemma 1的简要概述。
他们在主要为英文数据的13万亿token上对Gemma 2 27B进行了训练,并对9B模型进行了8万亿token的训练,对2.6B模型则进行了2万亿token的训练。这些token来自各种数据源,包括网页文档、代码和科学文章。模型并不是多模态的,也没有专门为最先进的多语言能力进行训练。最终的数据混合通过类似于Gemini 1.0的消融研究所确定。
研究团队使用TPUv4、TPUv5e和TPUv5p进行模型训练,细节如下方表3所示。
在后训练中,谷歌将预训练模型微调为指令调整模型。
Gemma 2模型的微调采用了与Gemma 1模型不同的格式模式。谷歌使用了相同的控制token,具体如表4所述,表5中则提供了对话示例。
实验及评估
在表6中可以发现,与从头开始训练相比,从更大的模型中提炼出来的结果提高了性能。需要注意的是,500B个token是2.6B模型最佳计算token数的10倍。研究团队从7B模型进行蒸馏,以保持与从27B模型蒸馏到9B模型相似的比例。
在表7中,谷歌团队测量了随着模型规模增加进行蒸馏的影响。可以观察到,随着模型规模的扩大,这种增益仍然存在。在此消融实验中,研究团队保持教师模型的规模为7B,并训练较小的模型以模拟最终教师和学生模型规模之间的差距。
此外,谷歌考虑到prompt/评估格式变化的影响,测量了在MMLU上的性能方差,如表11所示。Gemma 2B模型在格式稳健性方面略逊于较大的模型。值得注意的是,Mistral 7B在稳健性方面显著低于Gemma系列模型。
研究团队还评估了在13万亿token上训练的27B模型(未经过蒸馏)的性能,并与类似规模的Qwen1.5 34B模型以及规模大2.5倍的LLaMA-3 70B模型在HuggingFace评估套件上的表现进行了比较,在表12中列出了评估结果。模型的选择依据基于其在HuggingFace排行榜上的排名。总体来看,Gemma-2 27B模型在其规模类别中表现最佳,甚至可以与训练时间更长的大模型进行同级别竞争。
Gemma-2 27B和9B指令微调模型在Chatbot Arena中进行了盲测评估,由人类评估员与其他SOTA模型进行对比。研究团队在图1中报告了ELO评分。
除此之外,研究团队通过让人类评估员与模型进行对话,并遵循指定的场景进行测试,评估了Gemma 1.1 7B、Gemma 2 9B和27B模型的多轮对话能力。
谷歌使用了一个包含 500 个场景的多样化保留集合,每个场景描述了对模型的一系列请求,包括头脑风暴、制定计划或学习新知识。用户平均交互次数为8.4次。最终发现,与Gemma 1.1相比,用户对Gemma 2模型的对话满意度和对话目标实现率的评价显著更高(见表15)。此外,Gemma 2模型在从对话开始到后续轮次中,相比于Gemma 1.1 7B能够更好地保持高质量的回应。