核心判断

如果你是为了本地部署而看 Gemma 4,不必盯着“31B 是不是榜单最强”。更值得看的是下面这三个判断。

第一,Gemma 4 26B A4B 是这代最值得部署的型号。它在 Google 官方给出的基准测试里,和 31B 的差距并不大,但部署门槛和推理成本明显更友好。Arena 和 Artificial Analysis 的公开数据也支持这个判断,它不是缩水版,这一代真正适合长期部署的主力版本就是它。

第二,31B 是追求质量上限时该看的版本,但它更像“高配本地机”或“小型私有服务器”目标,不是大多数笔记本用户应该默认拉下来的那个版本。Google 官方文档和 Ollama 页面都说明了这一点:哪怕量化之后能放进消费级显存,运行时额外开销、上下文缓存和工具链成熟度,仍然会决定它是否真正好用。

第三,E4BE2B 的意义比很多人想得大。它们已经进入“轻量但可干活”的区间,不只是演示用的小模型。对于 8GB 左右显存、苹果芯片 Mac、边缘设备和浏览器端实验,它们反而是最现实的入口。

Gemma 4 真正改变了什么

Gemma 4 值得认真看,因为它第一次把“开放权重模型的强度”和“本地运行的现实性”同时拉高了。

Google 在 2026-04-02 的发布里把 Gemma 4 定义成目前最强的一代 Gemma,并强调它覆盖了从手机、笔记本到工作站和服务器的不同部署层级。官方文档给出的型号分层也很明确:

  • E2BE4B:面向低资源设备和边缘端。
  • 26B A4B:面向高质量本地推理和高性价比部署。
  • 31B:面向最强质量和更高端的单机或服务端部署。

这套分层背后最关键的一点,是 Google 没再把“小模型”和“高质量模型”完全割裂开。按照官方 model card,31B 的 MMLU-Pro 是 85.2%26B A4B82.6%,但后者激活参数只有大约 4B。这就是 Gemma 4 最有现实意义的地方:它在公开能力上已经靠近高端开放模型前列,但不再默认要求超重的推理成本。

本地部署里最容易看错的一件事:A4B 不是“4B 就能轻松跑”

很多人第一次看到 26B A4B,会以为这和普通 4B 模型差不多。这是理解 Gemma 4 时最容易踩的坑。

A4B 的意思是每一步实际参与计算的参数量大约 4B,不是整个模型的总权重只有 4B。它采用的是专家混合路线,推理时每一步只激活一部分专家,所以计算量更省,但完整权重仍然要被装进显存或内存里。

Google 官方文档直接给了这代模型的推荐内存范围。按 Q4_0 量化估算:

  • E2B2.6GB
  • E4B5.0GB
  • 26B A4B15.6GB
  • 31B17.4GB

如果按 BF16 部署,门槛会立刻抬高:

  • E2B5.2GB
  • E4B9.1GB
  • 26B A4B53.8GB
  • 31B61.7GB

这组数字非常说明问题。26B A4B 的计算路径更轻,不等于显存占用会像 4B 模型一样轻。你如果拿它和普通 7B8B 模型的部署心态去看,结论会直接跑偏。

按机器选,比按榜单选更重要

如果目标是尽快把模型跑起来,可以直接按硬件层级来选。

8GB 以内显存,或者更偏轻薄本

这一档更适合看 E2BE4B。Google 官方文档、LM Studio 和 Ollama 都已经给出可直接拉取的工件,Hugging Face 工程博客也提到发布当天已支持 Transformersllama.cppMLXWebGPU

这两档的意义不只是能跑起来。Artificial Analysis 的公开页面显示,E4BE2B 的综合能力已经明显高于过去那类“只能凑合聊天”的轻量模型。它们更适合本地助手、文档问答、轻量代码补全、多模态输入前处理和边缘端推理。

16GB 到 24GB 显存,或者高配桌面机

这一档最值得评估的是 26B A4B 的量化版本。Google 官方给出的 Q4_0 估算是 15.6GB,Ollama 当前分发包大小约 18GB,LM Studio 也已经收录。

这也是我最推荐的一档。原因很简单,它不只是能塞进去,质量也确实够高。Google 发布文在 2026-04-02 写到,按当时的 Arena 数据,31B 是开放模型第 326B 是第 6;截至 2026-04-04 的 Arena 开放榜页面,26B A4B 仍然处在开放权重第一梯队。对本地部署来说,这意味着你不需要为了省资源而大幅牺牲能力。

48GB 以上显存,或者私有服务端

如果你有更高配的工作站,或者就是想做服务端部署,31B 才开始变得真正合理。vLLM 的 Gemma 4 recipe 明确写到,31B26BBF16 运行都已经属于 80GB 级单卡或多卡环境的范畴。也就是说,想在不量化的条件下舒适跑它,目标用户本来就不是普通消费级机器。

所以本地部署里最实用的策略其实很简单:消费级设备更适合量化后的 E4B / 26B A4B,只有当你已经拥有明显更高一档的硬件,才让 31B 成为默认选择。

运行时生态已经很快,但成熟度并不一样

Gemma 4 的好消息是,本地生态几乎在发布当天就跟上了。

截至 2026-04-04,比较明确的支持链路包括:

  • Google 官方文档已经覆盖 TransformersPyTorch/XLAKerasOllamaLM Studiollama.cppGemma.cpp 等集成方式。
  • Hugging Face 工程博客确认发布当天就已支持 Transformersllama.cppMLXWebGPU
  • vLLM 已给出 Gemma 4 部署 recipe,说明服务端推理栈也已经接入。
  • NVIDIA 专门写了本地和边缘部署文章,覆盖 RTX、Jetson、DGX Spark 等路线。

但“支持”不等于“每条链路都同样成熟”。这正是现在最需要冷静看的地方。

Simon Willison 在 2026-04-02 的本地实测里提到,2B4B26B A4B 的 GGUF 在 LM Studio 里可以跑起来,但 31B 当时出现了持续输出分隔符的异常;他还明确指出,Gemma 4 的音频能力在 LM Studio 和 Ollama 这类本地桌面栈里当时还没有完全接好。

这类反馈比“已经支持”四个字更有价值。它说明 Gemma 4 的模型层已经很强,但工具链层仍在追版本。你如果是要给自己本地试用,可以接受这种不稳定;如果是要给团队做稳定交付,最好把目标栈缩到更成熟的组合里,例如:

  • 桌面试用:LM Studio + E4B / 26B A4B
  • 命令行快速部署:Ollama + E4B / 26B A4B
  • 苹果芯片 Mac:MLX + E4B / 26B A4B
  • 服务端:vLLM + BF16 或更高质量量化

为什么 26B A4B 会是最现实的主力

如果只允许我给一条建议,那就是从 26B A4B 起步,而不是直接追 31B

原因有三层。

第一层是质量足够高。Google 官方 model card、Arena 和 Artificial Analysis 都说明它不是缩水版,能稳定进入开放模型前列的一档。

第二层是本地门槛更合理。它仍然不算轻,但已经接近很多高配消费级设备能认真尝试的范围。相比 31B,它更容易进入“单机量化可用”的区域。

第三层是生态更快收敛。Hugging Face、Ollama、LM Studio、llama.cpp 这一圈对 26B A4B 的支持明显更顺手。Simon Willison 的实测也反过来说明了这一点:31B 的本地链路在发布初期更容易暴露兼容性问题。

把它翻成更直白的话,可以这样理解:

  • E4B 像“能装进口袋的小机型”,适合低门槛起步。
  • 26B A4B 像“大多数人真正会买的主力款”,能力和门槛最平衡。
  • 31B 更像“顶配版”,更强,但不是人人都该上来就选。

现在不要高估 Gemma 4 的两件事

第一,不要把排行榜成绩直接等同于本地体验。Gemma 4 的榜单表现确实很强,但本地部署的实际感受还会被量化方式、上下文长度、上下文缓存、桌面工具适配和系统内存带宽拉开。

第二,不要把“原生多模态”自动理解成“所有本地栈都已经把多模态能力接好了”。截至 2026-04-04,本地文本推理生态跟进很快,但音频和更完整的多模态链路还没有像文本那样整齐。

所以,我不建议把 Gemma 4 的首轮评估目标写成“把全部能力都搬到本地”,而是重点看三个最现实的问题:

  • 你最常用的是文本、代码还是图像理解。
  • 你的机器到底适合 E4B26B A4B 还是只适合云端。
  • 你是要个人试用,还是要给团队做稳定工作流。

最后的部署建议

如果你今天就要开始试,不必复杂化。

  • 只有轻薄本或 8GB 左右显存:直接上 E4B,不要急着挑战 26B
  • 有 16GB 到 24GB 显存,或者内存和散热都不错的桌面机:直接试 26B A4B
  • 有 48GB 以上显存,或者本来就在做私有推理服务:再考虑 31B
  • 需要最稳的本地桌面体验:选 LM StudioOllama
  • 需要更像正式服务:优先 vLLM

Gemma 4 真正的意义在于,开放权重模型第一次把“排行榜前列”和“本地可部署”这两件事拉得这么近。对大多数开发者来说,这一代最该部署的不是最大那个,更值得看的反而是最平衡的那个。

更新附注

  • 版本:v1.2

更新日期:2026-04-04 更新原因:删除“先给结论”“甜点位”等口头化套词,收紧重复句骨架,让表达更接近日常中文。