Composer 2.5 进了 Grok Build，值得切换吗

今天凌晨 xAI 官宣：Composer 2.5 现已上线 Grok Build，通过 /models 菜单直接切换。

消息本身没什么悬念，但背后有几件事值得说清楚。

这个模型到底是谁的

Composer 2.5 是 Cursor 的自研 coding agent 模型，两周前刚发布。但它的底座是 Moonshot 的 Kimi K2.5 开源权重，Cursor 在此基础上做了大量专项训练，现在 xAI 把它集成进了 Grok Build。

所以你在 Grok Build 里跑的 Composer 2.5，是这样一个组合：Moonshot 出底座，Cursor 出训练配方，xAI 提供 CLI 入口。三家技术叠在一起。

它擅长什么

Composer 2.5 针对的是一类特定任务：给你一个真实代码库，让你在里面持续工作几十分钟甚至更长，期间要读文件、改代码、跑测试、处理报错、再循环。这种任务通用模型做起来容易在中途丢失上下文，遇到工具报错就开始乱猜。

几个典型场景：

把一个模块从 REST 迁移到 gRPC，涉及十几个文件改动，中间有接口依赖要追，让它跑完整个流程不中途要你确认
接手一个没有文档的老项目，让它自己读代码、写测试、然后安全重构某个函数，全程不踩坏其他逻辑
给出一份需求，让它规划路径、逐步执行、遇到编译错误自己修、最后交一个跑得通的版本

和几个主要选手比

模型	优势场景	弱点
Composer 2.5	长时 agentic 任务、复杂指令跟随	通用对话、非 coding 任务
Claude Sonnet 4.6	代码质量、指令理解、价格均衡	长时 agent 表现不及专项模型
Grok 3	通用推理、快速问答、xAI 生态集成	非专项训练，agent 任务中途容易漂
GPT-4o	生态丰富、工具调用成熟	长 rollout 下信用分配问题同样存在

在 agentic 评测上，Composer 2.5 的 Terminal-Bench 2.0 得分是 69.3%，对比 Grok 4.20 的 47.1%，差距相当明显。价格上 Standard 档 $0.50/M input，Fast 档 $3.00/M input，在这个性能档次里有优势。

社区实测：好在哪，坑在哪

有开发者在 Laravel API、Next.js 和 Python 数据管道等四个项目上跑了约 40 小时，结论是：Composer 2.5 最明显的进步是沟通方式。前一代用起来经常感觉是在和工具对抗，2.5 会主动问澄清性问题，在同样的提示下，问澄清问题的频率比 2.0 高了 3 到 4 倍。有开发者的原话是：它更像一个愿意陪你思考的同事，而不是一个什么都知道的实习生。

踩坑的地方也有两个：

一是努力校准还不稳定。遇到复杂任务，模型默认给出的是轻量回答，需要多次追问"请仔细想想"才能触发深度推理。同一道架构设计题跑了五次，有两次给出的是表面答案，漏掉了关键边界情况。

二是前端代码有个奇怪的偏差：模型会无缘无故往代码里插 <motion> 标签，即使项目根本没有安装 Framer Motion。这是训练数据分布偏斜的表现，做前端工作时需要留意，提交前一定要过 diff。

另外注意速度问题：Fast 档有开发者实测只有 5 tps，几乎没法用。Standard 档同一台机器跑出约 28 tps，体验完全不同。第一次试用前确认自己在哪个档位。

怎么试

bash

curl -fsSL https://x.ai/cli/install.sh | bash

安装后在 /models 菜单选 Composer。VS Code 扩展同步更新。

值不值得切

如果你在 Grok Build 里主要做多文件重构、长时任务、或者需要模型严格跟随复杂指令，值得试，做前端要记得看 diff。

如果你只是偶尔问代码问题，Grok 3 已经够用。