ByteNoteByteNote

字节笔记本

2026年6月3日

Composer 2.5 进了 Grok Build,值得切换吗

API中转
¥120

今天凌晨 xAI 官宣:Composer 2.5 现已上线 Grok Build,通过 /models 菜单直接切换。

消息本身没什么悬念,但背后有几件事值得说清楚。

这个模型到底是谁的

Composer 2.5 是 Cursor 的自研 coding agent 模型,两周前刚发布。但它的底座是 Moonshot 的 Kimi K2.5 开源权重,Cursor 在此基础上做了大量专项训练,现在 xAI 把它集成进了 Grok Build。

所以你在 Grok Build 里跑的 Composer 2.5,是这样一个组合:Moonshot 出底座,Cursor 出训练配方,xAI 提供 CLI 入口。三家技术叠在一起。

它擅长什么

Composer 2.5 针对的是一类特定任务:给你一个真实代码库,让你在里面持续工作几十分钟甚至更长,期间要读文件、改代码、跑测试、处理报错、再循环。这种任务通用模型做起来容易在中途丢失上下文,遇到工具报错就开始乱猜。

几个典型场景:

  • 把一个模块从 REST 迁移到 gRPC,涉及十几个文件改动,中间有接口依赖要追,让它跑完整个流程不中途要你确认
  • 接手一个没有文档的老项目,让它自己读代码、写测试、然后安全重构某个函数,全程不踩坏其他逻辑
  • 给出一份需求,让它规划路径、逐步执行、遇到编译错误自己修、最后交一个跑得通的版本

和几个主要选手比

模型优势场景弱点
Composer 2.5长时 agentic 任务、复杂指令跟随通用对话、非 coding 任务
Claude Sonnet 4.6代码质量、指令理解、价格均衡长时 agent 表现不及专项模型
Grok 3通用推理、快速问答、xAI 生态集成非专项训练,agent 任务中途容易漂
GPT-4o生态丰富、工具调用成熟长 rollout 下信用分配问题同样存在

在 agentic 评测上,Composer 2.5 的 Terminal-Bench 2.0 得分是 69.3%,对比 Grok 4.20 的 47.1%,差距相当明显。价格上 Standard 档 $0.50/M input,Fast 档 $3.00/M input,在这个性能档次里有优势。

社区实测:好在哪,坑在哪

有开发者在 Laravel API、Next.js 和 Python 数据管道等四个项目上跑了约 40 小时,结论是:Composer 2.5 最明显的进步是沟通方式。前一代用起来经常感觉是在和工具对抗,2.5 会主动问澄清性问题,在同样的提示下,问澄清问题的频率比 2.0 高了 3 到 4 倍。有开发者的原话是:它更像一个愿意陪你思考的同事,而不是一个什么都知道的实习生。

踩坑的地方也有两个:

一是努力校准还不稳定。遇到复杂任务,模型默认给出的是轻量回答,需要多次追问"请仔细想想"才能触发深度推理。同一道架构设计题跑了五次,有两次给出的是表面答案,漏掉了关键边界情况。

二是前端代码有个奇怪的偏差:模型会无缘无故往代码里插 <motion> 标签,即使项目根本没有安装 Framer Motion。这是训练数据分布偏斜的表现,做前端工作时需要留意,提交前一定要过 diff。

另外注意速度问题:Fast 档有开发者实测只有 5 tps,几乎没法用。Standard 档同一台机器跑出约 28 tps,体验完全不同。第一次试用前确认自己在哪个档位。

怎么试

bash
curl -fsSL https://x.ai/cli/install.sh | bash

安装后在 /models 菜单选 Composer。VS Code 扩展同步更新。

值不值得切

如果你在 Grok Build 里主要做多文件重构、长时任务、或者需要模型严格跟随复杂指令,值得试,做前端要记得看 diff。

如果你只是偶尔问代码问题,Grok 3 已经够用。

分享: