Gemma 3n移动端AI模型技术解析

原创

用户11764306

发布于 2026-05-15 07:06:35

550

Gemma 3n 入门：开发者指南

2025年6月26日

Omar Sanseviero

员工开发者关系工程师

Ian Ballantyne

高级开发者关系工程师

某机构 DeepMind

Gemma 3n 代表了端侧AI的重大进步，将强大的多模态能力带到了边缘设备上，其性能在过去仅见于基于云的顶级模型。

原生多模态设计：Gemma 3n 原生支持图像、音频、视频和文本输入以及文本输出。
端侧优化：Gemma 3n 模型提供两种基于有效参数的大小：E2B 和 E4B。虽然它们的原始参数分别为 50亿和 80亿，但架构创新使其运行时内存占用与传统 20亿和 40亿参数模型相当，最低仅需 2GB (E2B) 和 3GB (E4B) 内存。
开创性架构：Gemma 3n 的核心包含多项创新组件，如提供计算灵活性的 MatFormer 架构、实现内存高效的逐层嵌入 (PLE)、提升架构效率的 LAuReL 和 AltUp，以及针对端侧用例优化的全新音频和基于 MobileNet-v5 的视觉编码器。
增强的质量：Gemma 3n 在多语言支持（支持140种语言的文本理解，以及35种语言的多模态理解）、数学、编码和推理方面实现了质量提升。E4B 版本取得了超过1300分的 LMArena 评分，成为首个达到此基准的百亿参数以下模型。

实现端侧性能的飞跃需要从根本上重新设计模型。其基础是 Gemma 3n 独特的移动优先架构，这一切都从 MatFormer 开始。

Gemma 3n 的核心是 MatFormer（俄罗斯套娃变换器）架构，一种为弹性推理构建的新型嵌套变换器。可以把它想象成俄罗斯套娃：一个较大的模型包含了其自身较小但功能完备的版本。此方法将 Matryoshka 表示学习的概念从仅限嵌入扩展到了所有变换器组件。

在训练 40亿有效参数 (E4B) 模型的过程中，其内部的 20亿有效参数 (E2B) 子模型也会被同时优化。这为开发者提供了两种强大的能力：

预提取模型：可以直接下载并使用功能最强大的主 E4B 模型，或已提取出的独立 E2B 子模型，后者可提供高达2倍的推理速度。
混合匹配定制尺寸：为了针对特定硬件约束进行更精细的控制，可以使用一种称为“混合匹配”的方法，创建介于 E2B 和 E4B 之间的一系列定制尺寸模型。该技术通过主要调整每层的前馈网络隐藏维度（从8192到16384）并有选择地跳过某些层，来精确切分 E4B 模型的参数。

MatFormer 架构还为弹性执行铺平了道路。虽然不属于本次发布实现的一部分，但该能力允许单个已部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换，从而根据当前任务和设备负载实时优化性能和内存使用。

Gemma 3n 模型采用了逐层嵌入技术。这项创新专为端侧部署量身定制，因为它能显著提高模型质量，同时不增加设备加速器所需的高速内存占用。

虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为50亿和80亿，但 PLE 允许这些参数中的很大一部分（与每层关联的嵌入）在 CPU 上高效加载和计算。这意味着只有核心的变换器权重（E2B 约20亿，E4B 约40亿）需要放置在通常更受限的加速器内存中。

处理长输入（例如来自音频和视频流的序列）对于许多高级端侧多模态应用至关重要。Gemma 3n 引入了 KV 缓存共享功能，旨在显著加速流式响应应用的“首个令牌生成时间”。

KV 缓存共享优化了模型处理初始输入阶段的方式。来自局部和全局注意力的中间层的键和值直接与所有顶层共享，与 Gemma 3 40亿模型相比，预填充性能提升了2倍。这意味着模型能够比以前更快地摄取和理解长提示序列。

Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器每160毫秒音频生成一个令牌，然后作为输入集成到语言模型中，从而提供声音上下文的细粒度表示。

这种集成音频能力为端侧开发解锁了关键功能，包括：

在发布时，Gemma 3n 编码器可处理最长30秒的音频片段。但这并非根本限制，底层音频编码器是一个流式编码器，经过额外的长格式音频训练后能够处理任意长度的音频。

除了集成的音频能力，Gemma 3n 还配备了一个全新的、高效的视觉编码器 MobileNet-V5-300M，为边缘设备上的多模态任务提供了最先进的性能。

MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计，为开发者提供：

这一性能水平是通过多项架构创新实现的，包括 MobileNet-V4 模块的高级基础、规模显著扩大的深度金字塔混合模型，以及新颖的多尺度融合 VLM 适配器。

准备好探索 Gemma 3n 的潜力了吗？方法如下：

直接实验：使用某机构 AI Studio，只需点击几下即可试用 Gemma 3n。
下载模型：在 Hugging Face 和 Kaggle 上查找模型权重。
学习与集成：查阅综合文档，快速将 Gemma 集成到项目中，或从推理和微调指南开始。
使用喜爱的端侧AI工具构建：某机构 AI Edge Gallery/LiteRT-LLM、Ollama、MLX、llama.cpp、Docker、transformers.js 等。
使用喜爱的开发工具：利用 Hugging Face Transformers 和 TRL、NVIDIA NeMo 框架、Unsloth 和 LMStudio 等工具和框架。
按需部署：Gemma 3n 提供多种部署选项，包括某机构 GenAI API、Vertex AI、SGLang、vLLM 和 NVIDIA API Catalog。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。