ByteNoteByteNote

字节笔记本

2026年6月6日

零 API 费用的本地 Coding Agent:LM Studio + Codex + Qwen3.6 实战

API中转
¥120

零 API 费用的本地 coding agent 正在成为现实。LM Studio + Codex CLI + Apple Silicon 的组合,让本地跑 AI 编程助手不再只是玩具。

模型选择:35B A3B vs 27B

Qwen3.6 35B A3B 是 MoE(专家混合)架构,总参数 35B,每次推理只激活约 3B。27B 是稠密模型,全部参数参与计算。

4090 上的速度差异:35B A3B 约 120 tok/s,27B 稠密约 35 tok/s。MoE 快约 3 倍。

质量差异:纯编码任务 27B 略胜(SWE-bench 77.2% vs 35B 约 72%),但差距不大。

结论:用 Codex 跑 agent loop 选 35B A3B。agent 一次任务几十次工具调用,速度直接影响体验。

架构差异通俗解释

MoE 就像公司有 35 个专家,每次任务只叫 3 个相关专家开会。稠密模型是全部 27 人一起讨论。

GPU 的瓶颈不是"有多少参数",而是"每次推理要搬运多少数据"。35B A3B 每个 token 只需搬运约 3B 参数,27B 需要搬运全部 27B。这就是为什么更大的 MoE 模型反而更快。

硬件性能对比

硬件35B A3B (Q4)12B QAT
RTX 4090 24GB120+ tok/s81 tok/s
M5 Max 128GB35-50 tok/s-
M1 Max 32GB装不下40-60 tok/s

4090 带宽 1008 GB/s,是 M5 Max 的 2.5 倍。4090 跑 Gemma 4 12B 只有 81 tok/s 是因为模型太小撑不满带宽,换 35B A3B 反而更快。

QAT(量化感知训练)

普通量化是训练完再压缩,模型没见过压缩后的误差,质量有损失。QAT 在训练过程中就模拟量化,让模型提前适应低精度环境。同样的 4bit,QAT 版本质量接近 bf16 满精度。

配置建议

Codex + LM Studio 配置

toml
# ~/.codex/config.toml
[model_providers.lm_studio]
name = "LM Studio"
base_url = "http://localhost:1234/v1"

[profiles.qwen36]
model_provider = "lm_studio"
model = "qwen/qwen3.6-35b-a3b"
bash
codex --profile qwen36

vLLM 配置(如用 vLLM 后端):

bash
vllm serve Qwen/Qwen3.6-35B-A3B   --port 8000   --tensor-parallel-size 1   --max-model-len 262144   --trust-remote-code   --enable-auto-tool-choice   --tool-call-parser qwen3_coder

采样参数理解

模型每生成一个词本质上是在抽奖:

  • Top K:只留概率最高的 K 个词进池子
  • Top P:按概率从高到低累加,到阈值就关池子
  • 最小 P:概率太低的词直接踢掉
  • 重复惩罚:已出现的词降低概率

Coding 场景保持默认即可。

远程访问 Windows 方案

除了 SSH,还可以用:PowerShell Remoting、Tailscale + SSH、WinRM、ZeroTier。已有 ZeroTier 的话直接开 SSH 服务连虚拟 IP 最省事。

分享: