2025年6月26日
Omar Sanseviero
员工开发者关系工程师
Ian Ballantyne
高级开发者关系工程师
某机构 DeepMind
Gemma 3n 代表了端侧AI的重大进步,将强大的多模态能力带到了边缘设备上,其性能在过去仅见于基于云的顶级模型。
实现端侧性能的飞跃需要从根本上重新设计模型。其基础是 Gemma 3n 独特的移动优先架构,这一切都从 MatFormer 开始。
Gemma 3n 的核心是 MatFormer(俄罗斯套娃变换器)架构,一种为弹性推理构建的新型嵌套变换器。可以把它想象成俄罗斯套娃:一个较大的模型包含了其自身较小但功能完备的版本。此方法将 Matryoshka 表示学习的概念从仅限嵌入扩展到了所有变换器组件。
在训练 40亿有效参数 (E4B) 模型的过程中,其内部的 20亿有效参数 (E2B) 子模型也会被同时优化。这为开发者提供了两种强大的能力:
MatFormer 架构还为弹性执行铺平了道路。虽然不属于本次发布实现的一部分,但该能力允许单个已部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载实时优化性能和内存使用。
Gemma 3n 模型采用了逐层嵌入技术。这项创新专为端侧部署量身定制,因为它能显著提高模型质量,同时不增加设备加速器所需的高速内存占用。
虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为50亿和80亿,但 PLE 允许这些参数中的很大一部分(与每层关联的嵌入)在 CPU 上高效加载和计算。这意味着只有核心的变换器权重(E2B 约20亿,E4B 约40亿)需要放置在通常更受限的加速器内存中。
处理长输入(例如来自音频和视频流的序列)对于许多高级端侧多模态应用至关重要。Gemma 3n 引入了 KV 缓存共享功能,旨在显著加速流式响应应用的“首个令牌生成时间”。
KV 缓存共享优化了模型处理初始输入阶段的方式。来自局部和全局注意力的中间层的键和值直接与所有顶层共享,与 Gemma 3 40亿模型相比,预填充性能提升了2倍。这意味着模型能够比以前更快地摄取和理解长提示序列。
Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器每160毫秒音频生成一个令牌,然后作为输入集成到语言模型中,从而提供声音上下文的细粒度表示。
这种集成音频能力为端侧开发解锁了关键功能,包括:
在发布时,Gemma 3n 编码器可处理最长30秒的音频片段。但这并非根本限制,底层音频编码器是一个流式编码器,经过额外的长格式音频训练后能够处理任意长度的音频。
除了集成的音频能力,Gemma 3n 还配备了一个全新的、高效的视觉编码器 MobileNet-V5-300M,为边缘设备上的多模态任务提供了最先进的性能。
MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计,为开发者提供:
这一性能水平是通过多项架构创新实现的,包括 MobileNet-V4 模块的高级基础、规模显著扩大的深度金字塔混合模型,以及新颖的多尺度融合 VLM 适配器。
准备好探索 Gemma 3n 的潜力了吗?方法如下:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。