字节笔记本
2026年6月13日
OpenCode公布真实使用数据,国产模型全线碾压
我一直有个习惯:不太信 benchmark 分数,更信真实用量。
前几天 opencode.ai 悄悄上了一个数据面板 /data,实时公布他们平台上所有模型的真实调用量、成本和缓存率。数据更新到 6 月 13 日,翻开一看,这和我自己跑下来的体感完全吻合,忍不住要拿出来分析一遍。
顺便说一句,opencode 是什么:它是一个开源的 AI 代码助手命令行工具,底层原理类似 Claude Code,支持接入多家模型提供商,在开发者圈子里有一定用户基础。/data 这个页面直接把平台上的真实调用数据公开了出来,相当于一份实时更新的「真实使用排行榜」。
排行榜长这样
截至 2026 年 6 月 13 日,前五名清一色国产:
- deepseek-v4-flash(32T tokens)
- deepseek-v4-pro(19T tokens)
- kimi-k2.6(6.5T tokens)
- glm-5.1(2.4T tokens)
- qwen3.6-plus(2.3T tokens)
往后看:MiniMax 的 m2.7 和 m3、小米的 Mimo v2.5 和 v2.5-pro、Qwen 的多个版本……十八个模型,没有一个来自 Anthropic,没有一个来自 OpenAI。
这不是某个评测机构的主观打分,这是真实代码任务的 token 消耗量。
开发者用脚投票的结果,就这样。
DeepSeek 为什么遥遥领先
DeepSeek v4-flash 一家吃掉 32T tokens,比第三名 Kimi k2.6 高出将近 5 倍。
原因不复杂:性价比。
v4-flash 的 token 单价是 $0.28/M,v4-pro 是 $0.87/M。这个数字放在代码助手场景里意味着什么?opencode 的数据显示每次会话平均消耗约 3.5M tokens,算下来 v4-flash 每次成本约 $0.068,v4-pro 约 $0.55。
再看对比组:glm-5.1 单价 $24/M,每次会话成本 $1.16。同样的一个任务,最贵的比最便宜的贵了整整 20 倍。
每天跑几十个开发任务,一个月账单的差距就很清楚了。
但成本不是唯一原因。DeepSeek 在代码任务上的实际表现本来就不差,两点叠加,用量自然推到顶。
最有意思的数据:缓存率
我盯着缓存比率这一栏看了很久。
- qwen3.7-max:98%
- deepseek-v4-pro:97%
- deepseek-v4-flash:97%
- mimo-v2.5-pro:96%
缓存率 97% 是什么概念?意味着每 100 个输入 token 里,只有 3 个是全新内容,其余 97 个都在读缓存。
在代码助手场景里,这个数字其实非常合理。你每次问问题,前面带着的是同一份代码库上下文、同一套系统提示,这些内容几乎一字不变,自然大量命中缓存。整个平台累计缓存 tokens 达 6.9T,未缓存仅 246.5B。
定价也配合这个用法:DeepSeek 的缓存价仅 $0.05/M,比输入原价低约 5 倍,比输出价低约 5.6 倍。便宜的地方正好是你用得最多的地方。
Kimi 和 GLM:两个信号
Kimi k2.6 排第三,6.5T tokens,且是「New」标签。新模型直接打到这个量级,说明 Moonshot 这次的代码能力是真的打出来了,不是靠存量用户的情分。我上周在复杂重构任务上也测了几次 k2.6,表现确实超出预期。
GLM-5.1 涨幅 +417%,是本期最夸张的数字。智谱在国内高校和企业一直有不小的渗透基础,但过去在代码场景上存在感偏弱。这次暴涨很可能是某个版本更新拉高了能力台阶,积累的存量用户快速转过来了。
小米 Mimo 这次上了两款(v2.5 和 v2.5-pro),都是「New」标签。很多人还没把小米往 AI 模型方向联想,但用量数据说明已经有真实开发者在跑了。值得盯着看。
地理分布里的隐藏信息
tokens 使用量排名:中国 28T(15%)、美国 20T(11%)、印度 11T(6%)。
两个细节:
其一,中国是第一但只占 15%。opencode 的用户分散在全球各地,这不是一个专门服务中国开发者的工具。国产模型在这样的平台上能横扫前十八,不只是国内用户在撑量。
其二,香港(3.6T)和新加坡(3.6T)加起来接近德国(7.9T)。这两地是很多国内开发者访问境外服务常走的节点,这个数字在意料之中。
这份数据为什么值得信
很多模型排行榜的问题在于:评测者选的任务不是真实任务,评测环境不是真实负载,分数是在受控条件下刷出来的。
opencode /data 的逻辑不同。它统计的是真实开发者跑真实任务花出去的钱对应的 token 消耗量。没有人会在假任务上烧真钱,这份数据的置信度比大多数 benchmark 都高。
我日常主力是 deepseek-v4-flash,理由就是成本——够用的时候我不会开 pro。这份排行榜出来,印证了这个选择并不孤独。
结论
便宜且能打的有(DeepSeek),新进场就打出量的有(Kimi、Mimo),老玩家一轮更新能翻 4 倍的也有(GLM)。格局已经挺清楚了。
如果你还在用海外模型跑代码任务,这份数据值得对照一下自己的账单。
数据来源:opencode.ai/data,更新于 2026 年 6 月 13 日。