豆包 2.0（Seed 2.0）发布：19项基准12项第一，API价格仅为海外模型十分之一

字节跳动 Seed 团队发布了豆包大模型 2.0（Doubao-Seed-2.0），包括 Pro、Lite、Mini 三款通用模型和一个 Code 模型。这次更新围绕 Agent 使用和大规模生产做了系统性优化，同时附了一份 79 页的 Model Card。

核心数据先过一遍：数学与视觉推理 19 项基准中拿到 12 项第一，视觉感知、文档理解、长上下文大部分基准达到 SOTA，视频理解的 EgoTempo 甚至超过了人类分数。LLM 科学能力方面，HealthBench 第一，SuperGPQA 超过 GPT-5.2。代码能力有明显进步，部分高难基准和国际领先模型仍有差距。

定价：比海外模型低一个数量级

四款模型 API 均已上线火山引擎，均支持文字、图片、视频输入，文字输出。

模型	定位	输入价格	输出价格	缓存命中
Pro	旗舰全能，复杂推理与长链路 Agent	3.2	16	0.64
Lite	均衡型，综合能力超 Seed1.8	0.6	3.6	0.12
Mini	低时延高并发，256k 上下文	0.2	2	0.04
Code	编程加强，适配 IDE 工具链	3.2	16	0.64

价格单位为元/百万 tokens（≤32k 输入）。对比同类海外产品，价格大约低了一个数量级。这不是小事——Agent 跑一次 workflow 消耗的 token 是普通对话的几十倍，大规模推理和长链路生成会消耗大量 token，成本变量会越来越重。

优化方向：基于真实调用数据

Seed 团队分析了通用模型在 MaaS 服务中的真实调用情况，发现最高比例的需求是处理混杂图表、文档等非结构化信息。企业端的典型模式是先让模型做"读得多、想得多"的任务，再进入复杂且专业的流程型工作。

基于此，Seed2.0 重点优化了三个方向：

更稳健的视觉与多模态理解：复杂文档、表格、图形、视频的解析能力显著提升
更可靠的复杂指令执行：多约束、多步骤、长链路任务的理解与执行能力强化
更灵活的推理选择：Pro、Lite、Mini 三档加 Code 模型，覆盖不同场景

多模态能力细节

数学与视觉推理方面，Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等基准上达到业界最优。视觉感知在 VLMsAreBiased、VLMsAreBlind、BabyVision 等基准中取得最高分。文档理解和长上下文方面，ChartQAPro 与 OmniDocBench 1.5 达到顶尖水准，DUDE、MMLongBench、MMLongBench-Doc 均取得业界最佳。

视频理解是一大亮点。时间序列与运动感知方面，TVBench、TempCompass、MotionBench 等关键测评处于领先。EgoTempo 超过人类分数（人类 63.2，Seed2.0 Pro 71.8），对"变化、动作、节奏"的捕捉更为稳定。长视频场景中可以高效准确地处理小时级别的视频，流式实时视频方面也能完成实时分析、环境感知和主动纠错。

长程任务与科学研究

Seed 团队观察到一个典型失衡：模型可以顺利解决竞赛难题，但在真实世界中很难端到端地完成实际任务。原因来自两点——真实任务跨越更长时间尺度、包含多个阶段，现有 Agent 难以自主构建高效工作流；真实世界知识具有强领域壁垒且呈长尾分布，不在训练语料的高频区。

Seed2.0 通过系统性加强长尾领域知识来应对。科学能力方面，SuperGPQA 超过 GPT-5.2，HealthBench 第一名，整体成绩与 Gemini 3 Pro 和 GPT-5.2 相当。深度研究方面，在长链路的"找资料、做归纳、写结论"连续工作流中表现突出。

更值得关注的是，Seed2.0 能把"研究想法"推进到"形成可落地的实验方案"。以高尔基体蛋白分析为例，模型把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成了一条完整流程，细化到关键实验环节的操作方式和对照组设计。相关领域专家反馈：方案在跨学科的实验细节与步骤化表达上超出预期。

代码能力

端到端整体代码生成和上下文学习方面取得了明显进步。不过在部分高难基准上，和国际领先模型相比仍有提升空间。Code 模型已适配 Claude Code 等 IDE 工具链。

使用方式

除了火山引擎 API，Seed2.0 Pro 和 Code 还可以通过以下方式使用：

豆包 App：选择"专家"模式
TRAE：内置模型中选择"Doubao-Seed-2.0-Code"

能解埃尔德什级别的数学问题，也能帮你整理一堆扫描版合同——Seed2.0 两个方向都在推。