OpenCode公布真实使用数据，国产模型全线碾压

我一直有个习惯：不太信 benchmark 分数，更信真实用量。

前几天 opencode.ai 悄悄上了一个数据面板 /data，实时公布他们平台上所有模型的真实调用量、成本和缓存率。数据更新到 6 月 13 日，翻开一看，这和我自己跑下来的体感完全吻合，忍不住要拿出来分析一遍。

顺便说一句，opencode 是什么：它是一个开源的 AI 代码助手命令行工具，底层原理类似 Claude Code，支持接入多家模型提供商，在开发者圈子里有一定用户基础。/data 这个页面直接把平台上的真实调用数据公开了出来，相当于一份实时更新的「真实使用排行榜」。

截至 2026 年 6 月 13 日，前五名清一色国产：

往后看：MiniMax 的 m2.7 和 m3、小米的 Mimo v2.5 和 v2.5-pro、Qwen 的多个版本……十八个模型，没有一个来自 Anthropic，没有一个来自 OpenAI。

这不是某个评测机构的主观打分，这是真实代码任务的 token 消耗量。

开发者用脚投票的结果，就这样。

DeepSeek v4-flash 一家吃掉 32T tokens，比第三名 Kimi k2.6 高出将近 5 倍。

原因不复杂：性价比。

v4-flash 的 token 单价是 $0.28/M，v4-pro 是 $0.87/M。这个数字放在代码助手场景里意味着什么？opencode 的数据显示每次会话平均消耗约 3.5M tokens，算下来 v4-flash 每次成本约 $0.068，v4-pro 约 $0.55。

再看对比组：glm-5.1 单价 $24/M，每次会话成本 $1.16。同样的一个任务，最贵的比最便宜的贵了整整 20 倍。

每天跑几十个开发任务，一个月账单的差距就很清楚了。

但成本不是唯一原因。DeepSeek 在代码任务上的实际表现本来就不差，两点叠加，用量自然推到顶。

我盯着缓存比率这一栏看了很久。

缓存率 97% 是什么概念？意味着每 100 个输入 token 里，只有 3 个是全新内容，其余 97 个都在读缓存。

在代码助手场景里，这个数字其实非常合理。你每次问问题，前面带着的是同一份代码库上下文、同一套系统提示，这些内容几乎一字不变，自然大量命中缓存。整个平台累计缓存 tokens 达 6.9T，未缓存仅 246.5B。

定价也配合这个用法：DeepSeek 的缓存价仅 $0.05/M，比输入原价低约 5 倍，比输出价低约 5.6 倍。便宜的地方正好是你用得最多的地方。

Kimi k2.6 排第三，6.5T tokens，且是「New」标签。新模型直接打到这个量级，说明 Moonshot 这次的代码能力是真的打出来了，不是靠存量用户的情分。我上周在复杂重构任务上也测了几次 k2.6，表现确实超出预期。

GLM-5.1 涨幅 +417%，是本期最夸张的数字。智谱在国内高校和企业一直有不小的渗透基础，但过去在代码场景上存在感偏弱。这次暴涨很可能是某个版本更新拉高了能力台阶，积累的存量用户快速转过来了。

小米 Mimo 这次上了两款（v2.5 和 v2.5-pro），都是「New」标签。很多人还没把小米往 AI 模型方向联想，但用量数据说明已经有真实开发者在跑了。值得盯着看。

tokens 使用量排名：中国 28T（15%）、美国 20T（11%）、印度 11T（6%）。

两个细节：

其一，中国是第一但只占 15%。opencode 的用户分散在全球各地，这不是一个专门服务中国开发者的工具。国产模型在这样的平台上能横扫前十八，不只是国内用户在撑量。

其二，香港（3.6T）和新加坡（3.6T）加起来接近德国（7.9T）。这两地是很多国内开发者访问境外服务常走的节点，这个数字在意料之中。

很多模型排行榜的问题在于：评测者选的任务不是真实任务，评测环境不是真实负载，分数是在受控条件下刷出来的。

opencode /data 的逻辑不同。它统计的是真实开发者跑真实任务花出去的钱对应的 token 消耗量。没有人会在假任务上烧真钱，这份数据的置信度比大多数 benchmark 都高。

我日常主力是 deepseek-v4-flash，理由就是成本——够用的时候我不会开 pro。这份排行榜出来，印证了这个选择并不孤独。

便宜且能打的有（DeepSeek），新进场就打出量的有（Kimi、Mimo），老玩家一轮更新能翻 4 倍的也有（GLM）。格局已经挺清楚了。

如果你还在用海外模型跑代码任务，这份数据值得对照一下自己的账单。

数据来源：opencode.ai/data，更新于 2026 年 6 月 13 日。