零 API 费用的本地 Coding Agent：LM Studio + Codex + Qwen3.6 实战

零 API 费用的本地 coding agent 正在成为现实。LM Studio + Codex CLI + Apple Silicon 的组合，让本地跑 AI 编程助手不再只是玩具。

模型选择：35B A3B vs 27B

Qwen3.6 35B A3B 是 MoE（专家混合）架构，总参数 35B，每次推理只激活约 3B。27B 是稠密模型，全部参数参与计算。

4090 上的速度差异：35B A3B 约 120 tok/s，27B 稠密约 35 tok/s。MoE 快约 3 倍。

质量差异：纯编码任务 27B 略胜（SWE-bench 77.2% vs 35B 约 72%），但差距不大。

结论：用 Codex 跑 agent loop 选 35B A3B。agent 一次任务几十次工具调用，速度直接影响体验。

架构差异通俗解释

MoE 就像公司有 35 个专家，每次任务只叫 3 个相关专家开会。稠密模型是全部 27 人一起讨论。

GPU 的瓶颈不是"有多少参数"，而是"每次推理要搬运多少数据"。35B A3B 每个 token 只需搬运约 3B 参数，27B 需要搬运全部 27B。这就是为什么更大的 MoE 模型反而更快。

硬件性能对比

硬件	35B A3B (Q4)	12B QAT
RTX 4090 24GB	120+ tok/s	81 tok/s
M5 Max 128GB	35-50 tok/s	-
M1 Max 32GB	装不下	40-60 tok/s

4090 带宽 1008 GB/s，是 M5 Max 的 2.5 倍。4090 跑 Gemma 4 12B 只有 81 tok/s 是因为模型太小撑不满带宽，换 35B A3B 反而更快。

QAT（量化感知训练）

普通量化是训练完再压缩，模型没见过压缩后的误差，质量有损失。QAT 在训练过程中就模拟量化，让模型提前适应低精度环境。同样的 4bit，QAT 版本质量接近 bf16 满精度。

配置建议

Codex + LM Studio 配置：

toml

# ~/.codex/config.toml
[model_providers.lm_studio]
name = "LM Studio"
base_url = "http://localhost:1234/v1"

[profiles.qwen36]
model_provider = "lm_studio"
model = "qwen/qwen3.6-35b-a3b"

bash

codex --profile qwen36

vLLM 配置（如用 vLLM 后端）：

bash

vllm serve Qwen/Qwen3.6-35B-A3B   --port 8000   --tensor-parallel-size 1   --max-model-len 262144   --trust-remote-code   --enable-auto-tool-choice   --tool-call-parser qwen3_coder

采样参数理解

模型每生成一个词本质上是在抽奖：

Top K：只留概率最高的 K 个词进池子
Top P：按概率从高到低累加，到阈值就关池子
最小 P：概率太低的词直接踢掉
重复惩罚：已出现的词降低概率

Coding 场景保持默认即可。

远程访问 Windows 方案

除了 SSH，还可以用：PowerShell Remoting、Tailscale + SSH、WinRM、ZeroTier。已有 ZeroTier 的话直接开 SSH 服务连虚拟 IP 最省事。