ByteNoteByteNote

字节笔记本

2026年6月14日

Ollama 用久了,我转向了 LM Studio

API中转
¥120

Ollama 用久了,我转向了 LM Studio。

用 Ollama 跑本地模型也有一段时间了。它确实好用,一行命令拉模型、一行命令跑起来,后台常驻服务、暴露 API,干净利落。

但每次给不写代码的朋友推荐本地模型方案,说到 ollama pull qwen3、说到要去 Terminal 里操作,对话就结束了。不是所有人都愿意跟命令行打交道,这是 Ollama 真实的门槛。

最近切换到 LM Studio,用下来感受很不一样。它是一个 GUI 软件,Windows/macOS/Linux 全平台支持,界面点点就能下模型、跑模型、开本地 API 服务。对于不想碰命令行的用户,这是目前最顺滑的本地模型方案。

装完之后先改语言

从官网下载对应平台的安装包,安装过程没什么特别的。打开之后默认全英文界面,先点左下角 → General → 往下找到语言选项,切到简体中文。

不是所有界面都会汉化,部分文案还是英文,但核心操作区域已经够用了。

第一件事:摸清自己机器的底

LM Studio 有一个 Hardware 检测页,打开就能看到 CPU 可用内存和 GPU 显存。这两个数字很关键,它们决定你能跑哪些模型。

Apple Silicon 是统一内存架构,GPU 和 CPU 共享内存。以 M1 32GB 为例,可用于模型推理的内存大概在 24-26GB 左右。不同配置的经验范围:

参数量Q4 量化大小最低内存需求
3B~2 GB3 GB
7B / 8B~5 GB6 GB
12B~7 GB9 GB
27B~16 GB18 GB
70B+40GB+跑不动

M1 32GB 最推荐的模型是 Gemma 4 12B QAT,7.15 GB,跑起来几乎没压力,同时支持 Vision + Tool Use + Reasoning 三项能力。

下模型:量化版本怎么选

左侧功能栏有一个模型下载入口,进去之后默认展示"最佳匹配",软件会根据当前设备配置推荐适合的模型。

搜索支持主流开源模型,Qwen、Gemma、Llama 之类的都有。以 Gemma 为例,搜出来之后点开具体条目,右侧会列出一堆量化版本:Q3、Q4、Q5、Q6、Q8。

量化这块有一个基本原则:Q4 以下不要选。Q3、Q2 的模型能力严重压缩,跑出来的效果基本没法用。从 Q4 起步,显存充裕的话优先选 Q5 或 Q6。

另外注意 QAT(Quantization-Aware Training)版本——训练阶段就考虑量化影响,同样 Q4 级别的体积,效果比普通 Q4 明显好,接近原始精度。选模型的优先级:QAT 版 > Q6 > Q5 > Q4。

模型详情页还会展示功能支持情况,比如是否支持工具调用、图像输入、深度推理。如果你的用法需要这些能力,下载前先看清楚。

下载需要挂代理,否则模型列表可能加载不出来。

直接在 LM Studio 里对话

下好模型之后,点"在聊天中使用",软件会把模型加载进内存或显存。加载完直接聊,轻量模型输出每秒 70 Token 左右完全正常。

这个聊天界面适合快速测试模型效果,确认模型是否正常工作,回答质量能不能过关。

开本地服务:一次配置,多端复用

这是 LM Studio 真正有价值的地方。

左侧切到"本地服务"页面,点击"启动服务",软件会在本地起一个 HTTP 服务,默认端口 1234。它同时支持三种 API 标准:LM Studio 自有格式、OpenAI 兼容格式、Anthropic 兼容格式。

支持 OpenAI 格式意味着市面上绝大多数 AI 客户端和工具都能接进来。

接入 Claude Code

Claude Code 支持通过环境变量替换 API 端点,把请求打到本地服务:

bash
ANTHROPIC_BASE_URL=http://localhost:1234 \
ANTHROPIC_API_KEY=lm-studio \
claude

因为 LM Studio 支持 Anthropic 兼容格式,直接替换 base URL 就能工作。API Key 随便填一个字符串占位,本地服务不校验。

也可以写进 shell 配置文件避免每次手动设置:

bash
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_API_KEY=lm-studio

接入 Codex

Codex CLI 用的是 OpenAI 兼容格式:

bash
OPENAI_BASE_URL=http://localhost:1234/v1 \
OPENAI_API_KEY=lm-studio \
codex --model google/gemma-4-12b-qat "帮我重构这个函数"

--model 参数填你在 LM Studio 里已经加载的模型名。可以先用 curl http://localhost:1234/api/v1/models 确认当前加载了哪些模型。

接入 Cherry Studio

Cherry Studio 是个 API 聚合客户端。把本地的 LM Studio 接进去很简单:

打开 Cherry Studio → 设置 → 添加供应商 → 在列表里找到 LM Studio → 填入 API 地址。API Key 留空。点"检测",Cherry Studio 会自动拉取当前 LM Studio 里加载的模型列表,确认之后开启该供应商。

整个过程不超过三分钟。

LM Link:手机远程调用电脑上的模型

这是 LM Studio 0.4.16 版本的新功能。核心逻辑很简单:手机通过端对端加密连接,直接远程调用你主机上跑的本地模型。

iPhone/iPad 本身不需要跑模型,算力还是在主机那边,手机只是一个接入端。iOS 上有一个叫 Locally 的配套 App,从 App Store 下载。

配对方式很简单:在 LM Studio 和 Locally 里登录同一个账号,然后在各自的 LM Link 设置里把连接开关打开,自动发现、自动配对,不需要手动填 IP 或端口。

Locally 还能同时显示多台设备,每台都有在线/离线状态。也就是说不是一对一,而是支持多设备网络,手机可以按需选择用哪台主机的算力。

lms CLI 常用命令

LM Studio 也提供了命令行工具,适合习惯终端的用户:

bash
# 模型管理
lms ls              # 列出本地模型
lms ps              # 查看当前加载的模型
lms get "gemma 4"   # 搜索下载模型
lms load google/gemma-4-12b-qat --gpu=max --context-length=8192

# 服务管理
lms server start    # 启动 API 服务(默认 1234)
lms server stop     # 停止服务
lms log stream      # 实时查看请求日志

# LM Link
lms link enable     # 开启远程连接
lms link status     # 查看连接状态

一点实际体感

用下来最直接的感受:LM Studio 的上手成本比 Ollama 低很多,特别是对不熟悉命令行的用户。但如果你本来就习惯 Ollama,迁移并没有特别紧迫的必要,两者底层都是 llama.cpp,推理效果差异不大。

LM Studio 更大的价值在于那个本地 API 服务。跑一个服务,Claude Code、Codex、Cherry Studio,甚至自己写的脚本,同时都能调用。这种"一次部署,多端复用"的用法,在多工具并行工作的场景下确实很方便。

M1 32GB 跑 Gemma 4 12B QAT 做代码辅助,速度和质量都够用。想跑更强的模型,至少需要 8GB 显存起步,16GB 以上才能比较舒服地用 7B 级别的模型。

本地推理永远有一道内存的墙,绕不过去。但在墙内,LM Studio 把体验做得已经足够顺。

分享: