
大家好 这里是「代码简单说」,欢迎大家关注同名公众号,不定时更新更多实用有趣的教程 也欢迎大家在评论区一起讨论交流!~
AI大模型、Gemma 4、QAT量化感知训练、端侧AI、本地部署、手机运行大模型、量化模型、Google Gemma、GGUF、Ollama、Transformers.js

最近不少开发者都在关注一个问题:
大模型什么时候才能真正跑在手机、平板甚至低配笔记本上?
虽然目前各种开源模型层出不穷,但真正限制本地部署的往往不是算力,而是内存占用。很多7B级别模型即便经过量化,依然需要数GB甚至十几GB显存或内存才能流畅运行。
而就在近期,Google 正式发布了 Gemma 4 QAT(Quantization-Aware Training)量化感知训练版本,将端侧部署能力进一步推进。其中最引人关注的是:
Gemma 4 E2B 模型内存占用已经降低到 1GB 以下。
这意味着未来手机、轻薄本、嵌入式设备运行高质量AI模型将变得更加现实。
[[toc]]
根据 Google 官方介绍:
QAT(Quantization-Aware Training)是一种在训练阶段就模拟量化误差的训练方法。
与传统量化方案相比:
方案 | 全称 | 量化时机 |
|---|---|---|
PTQ | Post Training Quantization | 训练完成后量化 |
QAT | Quantization Aware Training | 训练过程中量化 |
传统 PTQ 流程:
训练模型
↓
导出权重
↓
量化压缩
↓
部署QAT流程:
训练模型
↓
训练过程中模拟量化
↓
模型学习量化误差
↓
部署由于模型已经提前适应量化带来的精度损失,因此最终压缩后的效果通常更好。
很多开发者在部署本地模型时都有类似经历:
FP16模型效果很好
↓
量化到4bit
↓
回答质量明显下降原因在于:
量化本质上会损失部分权重精度。
例如:
原始权重:
0.3521
0.4824
0.1948
量化后:
0.35
0.48
0.19单个参数误差很小。
但数十亿参数累积起来:
推理质量下降
逻辑能力下降
代码能力下降
幻觉增加QAT则在训练阶段提前引入这些误差:
训练时:
模型已经看到量化后的数据
部署时:
误差更可控因此:
这也是目前高质量量化模型的发展方向。
Google 本次针对移动设备进行了专门设计。
主要包含四项关键优化。
传统方案:
运行时计算缩放因子缺点:
增加CPU负载
增加推理延迟Gemma 4 QAT:
训练阶段提前确定缩放参数优势:
传统量化:
整个张量统一量化问题:
部分通道误差过大Gemma 4采用:
每个Channel独立量化示意:
Channel1 → Scale1
Channel2 → Scale2
Channel3 → Scale3优势:
这是此次更新中比较有意思的一项。
Google并没有简单粗暴地全部压缩。
而是采用:
关键层保留较高精度
非关键层:
压缩到2-bit即:
4bit + 2bit混合量化实现:
更小体积
更低内存
保持推理质量这种策略越来越像现代视频编码中的:
重点区域高码率
背景区域低码率把资源花在真正重要的地方。
大模型运行时占用内存最大的部分之一:
KV Cache其作用:
存储上下文信息上下文越长:
KV Cache越大Google对以下部分进行了压缩:
优化后:
支持更长上下文
减少内存占用
降低OOM风险对于移动端尤为重要。
此次最受关注的数据:
Google表示:
去除 Per-Layer Embeddings 后,纯文本版本内存需求已经低于 1GB。
对于端侧设备而言意义巨大。
过去常见情况:
模型 | 内存需求 |
|---|---|
7B FP16 | 14GB+ |
7B Q4 | 4GB左右 |
3B Q4 | 2GB左右 |
Gemma 4 E2B QAT | <1GB |
简单理解:
手机
平板
轻薄笔记本
单板计算机
都拥有运行空间端侧AI的应用场景将明显扩大。
原图如下:

从图中可以看到:
这也是QAT训练价值最直接的体现。
Google此次生态支持相当完整。
直接下载:
Q4_0
Mobile QAT模型权重。
支持:
GGUF格式。
适合:
本地运行。
直接部署:
ollama run gemma4适合普通开发者快速体验。
图形化部署。
无需命令行即可运行本地模型。
适合服务端部署:
高并发
高吞吐
API服务目前热门推理框架之一。
适合:
Agent
推理优化
企业部署Apple Silicon专属优化。
支持:
系列芯片。
支持浏览器直接运行。
例如:
import { pipeline } from "@xenova/transformers";
const generator = await pipeline(
"text-generation",
"google/gemma-4"
);未来网页离线AI应用将更加容易实现。
Google公布的显存需求如下:

可以看到:
不同硬件平台已经拥有对应优化版本:
均可获得较好的运行体验。
除了量化优化外。
Google特别强调:
量化后依然可用。
传统模型:
一次生成1个TokenMTP:
一次预测多个Token优势:
生成速度提升
延迟降低对于聊天场景:
首字响应更快
整体输出更流畅从技术路线来看,Google此次重点并不在于继续扩大模型参数规模,而是在解决:
如何让高质量模型真正跑到消费级设备上。
当前AI行业已经出现明显趋势:
拼参数规模
70B
405B
671B拼推理效率
量化
蒸馏
MoE
KV Cache优化端侧AI
手机AI
PC AI
浏览器AI
离线AIGemma 4 QAT显然属于第三阶段的重要产品。
特别是:
1GB内存
QAT训练
移动端优化这些特性意味着未来大量AI应用可能不再依赖云端推理,而是直接在本地完成。
对于开发者而言:
都将获得更低的接入门槛。
Google 发布的 Gemma 4 QAT 版本主要带来了以下升级:
特性 | 优势 |
|---|---|
QAT量化感知训练 | 减少量化精度损失 |
静态激活 | 降低移动端计算开销 |
通道量化 | 提升推理效率 |
2-bit针对性压缩 | 进一步降低模型体积 |
KV Cache优化 | 减少运行内存 |
E2B模型 | 内存占用低于1GB |
MTP支持 | 提高生成速度 |
多平台生态 | 支持 Ollama、LM Studio、vLLM、MLX、Transformers.js |
随着 Gemma 4 QAT 的发布,大模型正在从“云端专属”逐渐走向“人人可本地部署”。对于开发者和AI应用创业者来说,这类低内存、高性能模型或许会成为未来端侧AI生态的重要基础设施。