ByteNoteByteNote

字节笔记本

2026年6月3日

Gemma 4 12B 发布:Encoder-Free 多模态模型,16GB 笔记本可跑

API中转
¥120

Google 发布了 Gemma 4 12B,一个完全开源(Apache 2.0)的稠密模型,能在 16GB 显存的笔记本上运行,支持文字、图片、音频的多模态处理。

核心卖点:Encoder-Free

以前的多数多模态模型架构是:图片 → 视觉编码器处理 → 喂给 LLM;音频 → 音频编码器处理 → 喂给 LLM。每个模态有自己的独立编码器,体积大、显存吃紧。

Gemma 4 12B 取消了独立的视觉和音频编码器,把图片和音频直接压入大模型主干处理:

  • 视觉:原来 5.5 亿参数(27 层 Transformer)的视觉编码器,变成 3500 万参数的 embedder,把图片切成 48×48 小块做一次矩阵运算直接映射
  • 音频:原来 3 亿参数(12 层 Conformer)的音频编码器取消,原始 16kHz 音频切成 40ms 帧直接投影进 LLM

编码没有消失,而是坍缩到了模型主干里。

带来的好处

显存省:12B 级别就能在 16GB 笔记本上跑,对本地部署非常友好。

结构统一:文字、图片、音频都走同一个模型主干,不再是几个模块拼凑。

微调简单:做 LoRA 微调时可以在一套权重上同时调整视觉、音频和文字能力,不用分别调三个模块。

在手机上怎么用

方案一:直接体验(推荐)

装 Google AI Edge Gallery:

  • Android:Google Play 搜索安装
  • iOS:App Store 搜索安装
  • Android 12+ / iOS 17+
  • 进入应用后选择 Gemma 4 模型下载到本地

注意:手机上别直接上 12B。Google AI Edge Gallery 中面向手机的主要是 E2B 和 E4B,12B 更适合笔记本。

方案二:手机当客户端,电脑跑 12B

如果你想用 12B 的完整能力:

text
电脑(Mac / PC)跑 Gemma 4 12B
  → Ollama / LM Studio / llama.cpp
    → Open WebUI 或 API
      → 手机浏览器远程访问

搭配 Tailscale 可以在外网也能访问家里的机器。

方案三:开发者集成到自己的 App

走 LiteRT-LM,Google 的跨平台本地 LLM 部署框架,支持 Android、iOS、macOS、Windows、Linux,支持 CPU/GPU/NPU。Hugging Face 上有 .litertlm 格式的 Gemma 4 模型。

一句话总结

Gemma 4 12B 的卖点不是更大,而是更小的体积里塞进了更完整的多模态能力。

使用 Ollama 本地运行

bash
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 Gemma 4 12B 并运行
ollama pull gemma4:12b
ollama run gemma4:12b -- "用 Python 写一个快速排序"

通过 Python API 调用

python
import requests
import json

# Ollama API
response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4:12b",
    "prompt": "解释 encoder-free 架构相比传统多模态模型的优势",
    "stream": False,
    "options": {
        "temperature": 0.7,
        "top_p": 0.9
    }
})
print(response.json()["response"])

多模态输入示例

python
# 同时传入图片和文字
response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4:12b",
    "prompt": "这张图里有什么?",
    "images": [base64_image],
    "stream": False
})

在手机上远程访问

bash
# 在电脑上暴露 Ollama API
ollama serve

# 手机端通过浏览器或 App 访问
# Open WebUI 或自己写一个简单前端
分享: