首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Gemma 3n移动端AI模型技术解析

Gemma 3n移动端AI模型技术解析

原创
作者头像
用户11764306
发布2026-05-15 07:06:35
发布2026-05-15 07:06:35
550
举报

Gemma 3n 入门:开发者指南

2025年6月26日

Omar Sanseviero

员工开发者关系工程师

Ian Ballantyne

高级开发者关系工程师

某机构 DeepMind

Gemma 3n 的新特性

Gemma 3n 代表了端侧AI的重大进步,将强大的多模态能力带到了边缘设备上,其性能在过去仅见于基于云的顶级模型。

  • 原生多模态设计:Gemma 3n 原生支持图像、音频、视频和文本输入以及文本输出。
  • 端侧优化:Gemma 3n 模型提供两种基于有效参数的大小:E2B 和 E4B。虽然它们的原始参数分别为 50亿 和 80亿,但架构创新使其运行时内存占用与传统 20亿 和 40亿 参数模型相当,最低仅需 2GB (E2B) 和 3GB (E4B) 内存。
  • 开创性架构:Gemma 3n 的核心包含多项创新组件,如提供计算灵活性的 MatFormer 架构、实现内存高效的逐层嵌入 (PLE)、提升架构效率的 LAuReL 和 AltUp,以及针对端侧用例优化的全新音频和基于 MobileNet-v5 的视觉编码器。
  • 增强的质量:Gemma 3n 在多语言支持(支持140种语言的文本理解,以及35种语言的多模态理解)、数学、编码和推理方面实现了质量提升。E4B 版本取得了超过1300分的 LMArena 评分,成为首个达到此基准的百亿参数以下模型。

实现端侧性能的飞跃需要从根本上重新设计模型。其基础是 Gemma 3n 独特的移动优先架构,这一切都从 MatFormer 开始。

MatFormer:一个模型,多种尺寸

Gemma 3n 的核心是 MatFormer(俄罗斯套娃变换器)架构,一种为弹性推理构建的新型嵌套变换器。可以把它想象成俄罗斯套娃:一个较大的模型包含了其自身较小但功能完备的版本。此方法将 Matryoshka 表示学习的概念从仅限嵌入扩展到了所有变换器组件。

在训练 40亿有效参数 (E4B) 模型的过程中,其内部的 20亿有效参数 (E2B) 子模型也会被同时优化。这为开发者提供了两种强大的能力:

  1. 预提取模型:可以直接下载并使用功能最强大的主 E4B 模型,或已提取出的独立 E2B 子模型,后者可提供高达2倍的推理速度。
  2. 混合匹配定制尺寸:为了针对特定硬件约束进行更精细的控制,可以使用一种称为“混合匹配”的方法,创建介于 E2B 和 E4B 之间的一系列定制尺寸模型。该技术通过主要调整每层的前馈网络隐藏维度(从8192到16384)并有选择地跳过某些层,来精确切分 E4B 模型的参数。

MatFormer 架构还为弹性执行铺平了道路。虽然不属于本次发布实现的一部分,但该能力允许单个已部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载实时优化性能和内存使用。

逐层嵌入 (PLE):解锁更高内存效率

Gemma 3n 模型采用了逐层嵌入技术。这项创新专为端侧部署量身定制,因为它能显著提高模型质量,同时不增加设备加速器所需的高速内存占用。

虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为50亿和80亿,但 PLE 允许这些参数中的很大一部分(与每层关联的嵌入)在 CPU 上高效加载和计算。这意味着只有核心的变换器权重(E2B 约20亿,E4B 约40亿)需要放置在通常更受限的加速器内存中。

KV 缓存共享:更快的长上下文处理

处理长输入(例如来自音频和视频流的序列)对于许多高级端侧多模态应用至关重要。Gemma 3n 引入了 KV 缓存共享功能,旨在显著加速流式响应应用的“首个令牌生成时间”。

KV 缓存共享优化了模型处理初始输入阶段的方式。来自局部和全局注意力的中间层的键和值直接与所有顶层共享,与 Gemma 3 40亿模型相比,预填充性能提升了2倍。这意味着模型能够比以前更快地摄取和理解长提示序列。

音频理解:引入语音转文本与翻译

Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器每160毫秒音频生成一个令牌,然后作为输入集成到语言模型中,从而提供声音上下文的细粒度表示。

这种集成音频能力为端侧开发解锁了关键功能,包括:

  • 自动语音识别 (ASR):直接在设备上实现高质量的语音转文本转录。
  • 自动语音翻译 (AST):将口语翻译成另一种语言的文本。

在发布时,Gemma 3n 编码器可处理最长30秒的音频片段。但这并非根本限制,底层音频编码器是一个流式编码器,经过额外的长格式音频训练后能够处理任意长度的音频。

MobileNet-V5:新一代视觉编码器

除了集成的音频能力,Gemma 3n 还配备了一个全新的、高效的视觉编码器 MobileNet-V5-300M,为边缘设备上的多模态任务提供了最先进的性能。

MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计,为开发者提供:

  • 多种输入分辨率:原生支持 256x256、512x512 和 768x768 像素分辨率,允许根据特定应用平衡性能和细节。
  • 广泛的视觉理解:在广泛的多模态数据集上联合训练,擅长处理各种图像和视频理解任务。
  • 高吞吐量:在 Pixel 设备上可处理高达每秒60帧,实现实时的端侧视频分析和交互体验。

这一性能水平是通过多项架构创新实现的,包括 MobileNet-V4 模块的高级基础、规模显著扩大的深度金字塔混合模型,以及新颖的多尺度融合 VLM 适配器。

立即开始使用 Gemma 3n

准备好探索 Gemma 3n 的潜力了吗?方法如下:

  • 直接实验:使用某机构 AI Studio,只需点击几下即可试用 Gemma 3n。
  • 下载模型:在 Hugging Face 和 Kaggle 上查找模型权重。
  • 学习与集成:查阅综合文档,快速将 Gemma 集成到项目中,或从推理和微调指南开始。
  • 使用喜爱的端侧AI工具构建:某机构 AI Edge Gallery/LiteRT-LLM、Ollama、MLX、llama.cpp、Docker、transformers.js 等。
  • 使用喜爱的开发工具:利用 Hugging Face Transformers 和 TRL、NVIDIA NeMo 框架、Unsloth 和 LMStudio 等工具和框架。
  • 按需部署:Gemma 3n 提供多种部署选项,包括某机构 GenAI API、Vertex AI、SGLang、vLLM 和 NVIDIA API Catalog。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Gemma 3n 入门:开发者指南
    • Gemma 3n 的新特性
      • MatFormer:一个模型,多种尺寸
      • 逐层嵌入 (PLE):解锁更高内存效率
      • KV 缓存共享:更快的长上下文处理
      • 音频理解:引入语音转文本与翻译
      • MobileNet-V5:新一代视觉编码器
    • 立即开始使用 Gemma 3n
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档