Ollama 用久了，我转向了 LM Studio

Ollama 用久了，我转向了 LM Studio。

用 Ollama 跑本地模型也有一段时间了。它确实好用，一行命令拉模型、一行命令跑起来，后台常驻服务、暴露 API，干净利落。

但每次给不写代码的朋友推荐本地模型方案，说到 ollama pull qwen3、说到要去 Terminal 里操作，对话就结束了。不是所有人都愿意跟命令行打交道，这是 Ollama 真实的门槛。

最近切换到 LM Studio，用下来感受很不一样。它是一个 GUI 软件，Windows/macOS/Linux 全平台支持，界面点点就能下模型、跑模型、开本地 API 服务。对于不想碰命令行的用户，这是目前最顺滑的本地模型方案。

装完之后先改语言

从官网下载对应平台的安装包，安装过程没什么特别的。打开之后默认全英文界面，先点左下角 → General → 往下找到语言选项，切到简体中文。

不是所有界面都会汉化，部分文案还是英文，但核心操作区域已经够用了。

第一件事：摸清自己机器的底

LM Studio 有一个 Hardware 检测页，打开就能看到 CPU 可用内存和 GPU 显存。这两个数字很关键，它们决定你能跑哪些模型。

Apple Silicon 是统一内存架构，GPU 和 CPU 共享内存。以 M1 32GB 为例，可用于模型推理的内存大概在 24-26GB 左右。不同配置的经验范围：

参数量	Q4 量化大小	最低内存需求
3B	~2 GB	3 GB
7B / 8B	~5 GB	6 GB
12B	~7 GB	9 GB
27B	~16 GB	18 GB
70B+	40GB+	跑不动

M1 32GB 最推荐的模型是 Gemma 4 12B QAT，7.15 GB，跑起来几乎没压力，同时支持 Vision + Tool Use + Reasoning 三项能力。

下模型：量化版本怎么选

左侧功能栏有一个模型下载入口，进去之后默认展示"最佳匹配"，软件会根据当前设备配置推荐适合的模型。

搜索支持主流开源模型，Qwen、Gemma、Llama 之类的都有。以 Gemma 为例，搜出来之后点开具体条目，右侧会列出一堆量化版本：Q3、Q4、Q5、Q6、Q8。

量化这块有一个基本原则：Q4 以下不要选。Q3、Q2 的模型能力严重压缩，跑出来的效果基本没法用。从 Q4 起步，显存充裕的话优先选 Q5 或 Q6。

另外注意 QAT（Quantization-Aware Training）版本——训练阶段就考虑量化影响，同样 Q4 级别的体积，效果比普通 Q4 明显好，接近原始精度。选模型的优先级：QAT 版 > Q6 > Q5 > Q4。

模型详情页还会展示功能支持情况，比如是否支持工具调用、图像输入、深度推理。如果你的用法需要这些能力，下载前先看清楚。

下载需要挂代理，否则模型列表可能加载不出来。

直接在 LM Studio 里对话

下好模型之后，点"在聊天中使用"，软件会把模型加载进内存或显存。加载完直接聊，轻量模型输出每秒 70 Token 左右完全正常。

这个聊天界面适合快速测试模型效果，确认模型是否正常工作，回答质量能不能过关。

开本地服务：一次配置，多端复用

这是 LM Studio 真正有价值的地方。

左侧切到"本地服务"页面，点击"启动服务"，软件会在本地起一个 HTTP 服务，默认端口 1234。它同时支持三种 API 标准：LM Studio 自有格式、OpenAI 兼容格式、Anthropic 兼容格式。

支持 OpenAI 格式意味着市面上绝大多数 AI 客户端和工具都能接进来。

接入 Claude Code

Claude Code 支持通过环境变量替换 API 端点，把请求打到本地服务：

bash

ANTHROPIC_BASE_URL=http://localhost:1234 \
ANTHROPIC_API_KEY=lm-studio \
claude

因为 LM Studio 支持 Anthropic 兼容格式，直接替换 base URL 就能工作。API Key 随便填一个字符串占位，本地服务不校验。

也可以写进 shell 配置文件避免每次手动设置：

bash

export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_API_KEY=lm-studio

接入 Codex

Codex CLI 用的是 OpenAI 兼容格式：

bash

OPENAI_BASE_URL=http://localhost:1234/v1 \
OPENAI_API_KEY=lm-studio \
codex --model google/gemma-4-12b-qat "帮我重构这个函数"

--model 参数填你在 LM Studio 里已经加载的模型名。可以先用 curl http://localhost:1234/api/v1/models 确认当前加载了哪些模型。

接入 Cherry Studio

Cherry Studio 是个 API 聚合客户端。把本地的 LM Studio 接进去很简单：

打开 Cherry Studio → 设置 → 添加供应商 → 在列表里找到 LM Studio → 填入 API 地址。API Key 留空。点"检测"，Cherry Studio 会自动拉取当前 LM Studio 里加载的模型列表，确认之后开启该供应商。

整个过程不超过三分钟。

LM Link：手机远程调用电脑上的模型

这是 LM Studio 0.4.16 版本的新功能。核心逻辑很简单：手机通过端对端加密连接，直接远程调用你主机上跑的本地模型。

iPhone/iPad 本身不需要跑模型，算力还是在主机那边，手机只是一个接入端。iOS 上有一个叫 Locally 的配套 App，从 App Store 下载。

配对方式很简单：在 LM Studio 和 Locally 里登录同一个账号，然后在各自的 LM Link 设置里把连接开关打开，自动发现、自动配对，不需要手动填 IP 或端口。

Locally 还能同时显示多台设备，每台都有在线/离线状态。也就是说不是一对一，而是支持多设备网络，手机可以按需选择用哪台主机的算力。

lms CLI 常用命令

LM Studio 也提供了命令行工具，适合习惯终端的用户：

bash

# 模型管理
lms ls              # 列出本地模型
lms ps              # 查看当前加载的模型
lms get "gemma 4"   # 搜索下载模型
lms load google/gemma-4-12b-qat --gpu=max --context-length=8192

# 服务管理
lms server start    # 启动 API 服务（默认 1234）
lms server stop     # 停止服务
lms log stream      # 实时查看请求日志

# LM Link
lms link enable     # 开启远程连接
lms link status     # 查看连接状态

一点实际体感

用下来最直接的感受：LM Studio 的上手成本比 Ollama 低很多，特别是对不熟悉命令行的用户。但如果你本来就习惯 Ollama，迁移并没有特别紧迫的必要，两者底层都是 llama.cpp，推理效果差异不大。

LM Studio 更大的价值在于那个本地 API 服务。跑一个服务，Claude Code、Codex、Cherry Studio，甚至自己写的脚本，同时都能调用。这种"一次部署，多端复用"的用法，在多工具并行工作的场景下确实很方便。

M1 32GB 跑 Gemma 4 12B QAT 做代码辅助，速度和质量都够用。想跑更强的模型，至少需要 8GB 显存起步，16GB 以上才能比较舒服地用 7B 级别的模型。

本地推理永远有一道内存的墙，绕不过去。但在墙内，LM Studio 把体验做得已经足够顺。

字节笔记本

Ollama 用久了，我转向了 LM Studio

装完之后先改语言

第一件事：摸清自己机器的底

下模型：量化版本怎么选

直接在 LM Studio 里对话

开本地服务：一次配置，多端复用

接入 Claude Code

接入 Codex

接入 Cherry Studio

LM Link：手机远程调用电脑上的模型

lms CLI 常用命令

一点实际体感