字节笔记本
2026年6月15日
豆包 2.0(Seed 2.0)发布:19项基准12项第一,API价格仅为海外模型十分之一
字节跳动 Seed 团队发布了豆包大模型 2.0(Doubao-Seed-2.0),包括 Pro、Lite、Mini 三款通用模型和一个 Code 模型。这次更新围绕 Agent 使用和大规模生产做了系统性优化,同时附了一份 79 页的 Model Card。
核心数据先过一遍:数学与视觉推理 19 项基准中拿到 12 项第一,视觉感知、文档理解、长上下文大部分基准达到 SOTA,视频理解的 EgoTempo 甚至超过了人类分数。LLM 科学能力方面,HealthBench 第一,SuperGPQA 超过 GPT-5.2。代码能力有明显进步,部分高难基准和国际领先模型仍有差距。
定价:比海外模型低一个数量级
四款模型 API 均已上线火山引擎,均支持文字、图片、视频输入,文字输出。
| 模型 | 定位 | 输入价格 | 输出价格 | 缓存命中 |
|---|---|---|---|---|
| Pro | 旗舰全能,复杂推理与长链路 Agent | 3.2 | 16 | 0.64 |
| Lite | 均衡型,综合能力超 Seed1.8 | 0.6 | 3.6 | 0.12 |
| Mini | 低时延高并发,256k 上下文 | 0.2 | 2 | 0.04 |
| Code | 编程加强,适配 IDE 工具链 | 3.2 | 16 | 0.64 |
价格单位为元/百万 tokens(≤32k 输入)。对比同类海外产品,价格大约低了一个数量级。这不是小事——Agent 跑一次 workflow 消耗的 token 是普通对话的几十倍,大规模推理和长链路生成会消耗大量 token,成本变量会越来越重。
优化方向:基于真实调用数据
Seed 团队分析了通用模型在 MaaS 服务中的真实调用情况,发现最高比例的需求是处理混杂图表、文档等非结构化信息。企业端的典型模式是先让模型做"读得多、想得多"的任务,再进入复杂且专业的流程型工作。
基于此,Seed2.0 重点优化了三个方向:
- 更稳健的视觉与多模态理解:复杂文档、表格、图形、视频的解析能力显著提升
- 更可靠的复杂指令执行:多约束、多步骤、长链路任务的理解与执行能力强化
- 更灵活的推理选择:Pro、Lite、Mini 三档加 Code 模型,覆盖不同场景
多模态能力细节
数学与视觉推理方面,Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等基准上达到业界最优。视觉感知在 VLMsAreBiased、VLMsAreBlind、BabyVision 等基准中取得最高分。文档理解和长上下文方面,ChartQAPro 与 OmniDocBench 1.5 达到顶尖水准,DUDE、MMLongBench、MMLongBench-Doc 均取得业界最佳。
视频理解是一大亮点。时间序列与运动感知方面,TVBench、TempCompass、MotionBench 等关键测评处于领先。EgoTempo 超过人类分数(人类 63.2,Seed2.0 Pro 71.8),对"变化、动作、节奏"的捕捉更为稳定。长视频场景中可以高效准确地处理小时级别的视频,流式实时视频方面也能完成实时分析、环境感知和主动纠错。
长程任务与科学研究
Seed 团队观察到一个典型失衡:模型可以顺利解决竞赛难题,但在真实世界中很难端到端地完成实际任务。原因来自两点——真实任务跨越更长时间尺度、包含多个阶段,现有 Agent 难以自主构建高效工作流;真实世界知识具有强领域壁垒且呈长尾分布,不在训练语料的高频区。
Seed2.0 通过系统性加强长尾领域知识来应对。科学能力方面,SuperGPQA 超过 GPT-5.2,HealthBench 第一名,整体成绩与 Gemini 3 Pro 和 GPT-5.2 相当。深度研究方面,在长链路的"找资料、做归纳、写结论"连续工作流中表现突出。
更值得关注的是,Seed2.0 能把"研究想法"推进到"形成可落地的实验方案"。以高尔基体蛋白分析为例,模型把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成了一条完整流程,细化到关键实验环节的操作方式和对照组设计。相关领域专家反馈:方案在跨学科的实验细节与步骤化表达上超出预期。
代码能力
端到端整体代码生成和上下文学习方面取得了明显进步。不过在部分高难基准上,和国际领先模型相比仍有提升空间。Code 模型已适配 Claude Code 等 IDE 工具链。
使用方式
除了火山引擎 API,Seed2.0 Pro 和 Code 还可以通过以下方式使用:
- 豆包 App:选择"专家"模式
- TRAE:内置模型中选择"Doubao-Seed-2.0-Code"
能解埃尔德什级别的数学问题,也能帮你整理一堆扫描版合同——Seed2.0 两个方向都在推。