OpenAI o1 的秘密不是新架构，是 Test-Time Scaling Law

OpenAI o1 的发布在 AI 社区引起了广泛关注。很多人以为 o1 采用了全新的模型架构或者革命性的训练方法，但仔细看了技术报告后发现，o1 的核心创新不是架构上的突破，而是一条新的 scaling law——Test-Time Scaling Law。

传统大模型在推理时有一个固定的计算预算。无论用户提的问题是简单还是复杂，模型都分配同样多的计算资源来生成回答。这种方式的优点是可预测，响应时间稳定。但缺点也很明显：对于复杂问题，模型没有机会投入更多的"思考"时间。

o1 的做法恰恰相反。它让模型根据问题的复杂程度动态调整推理计算量。问题简单就快速给出答案，问题复杂就花更多时间思考。这个"思考时间"不是让用户干等，而是模型在内部先生成推理过程，逐步分析问题、拆解子任务、验证中间结论、修正错误方向，最后才生成最终答案。

实现上 o1 采用了工程化的 chain-of-thought 推理。Chain-of-thought 早在 2022 年就有论文提出，通过在 prompt 中加入"Let's think step by step"可以提升推理质量。o1 把这种方法系统化了，在训练阶段就针对多步推理做了专门的优化，让模型学会在复杂的推理过程中保持逻辑一致性，不在推理中途偏离方向。

从实际效果看，o1 在数学竞赛题、复杂编程任务、科学推理等需要多步逻辑推理的场景上表现非常出色。在 AIME 数学竞赛上准确率远超 GPT-4，在编程竞赛平台 Codeforces 上达到了 competitive programmer 的水平。这些任务的特点是：单步推理不能解决问题，需要多步推理才能找到正确答案。

o1 将推理过程分为几个阶段。识别阶段理解问题类型和难度，规划阶段制定解题策略，执行阶段按照策略逐步推理，验证阶段检查中间结果的正确性。如果在验证阶段发现问题，模型会回溯到之前的步骤重新推理。这种结构化的推理方式显著提高了复杂任务的准确率。

但 Test-Time Scaling Law 也有局限性。在多花推理时间就能解决的问题上效果很好，但在那些即使多花时间也想不明白的问题上，o1 提升有限。而且推理时间增加意味着响应延迟和计算成本的同步增加，不太适合对延迟敏感的应用场景。在简单的问答场景中，使用 o1 反而得不偿失，因为它的推理时间比普通模型长得多，但答案质量提升不明显。

o1 的训练方法也值得关注。它使用强化学习来训练推理能力，通过过程监督来确保推理每一步的正确性。训练数据不是简单的输入输出对，而是包含完整推理过程的数据。模型在训练中学会了如何进行有效的自我检视和错误修正。

对于开发者来说，o1 的出现提供了新的选型维度。在需要高精度推理的场景优先选择 o1，在对延迟敏感的场景继续使用传统模型。两种模型配合使用，在准确率和速度之间取得最佳平衡。

o1 的推理过程对用户是透明的吗？API 使用 o1 时，用户可以获取模型的推理摘要，即 chain-of-thought 的摘要版本。完整的推理过程被视为模型内部状态，不直接暴露给用户。这种设计既让用户了解模型的推理路径，又保护了模型的技术细节。o1 的训练数据以推理过程为核心。传统模型的训练数据是输入输出对，o1 的训练数据还包括中间的推理步骤。这些推理步骤由人工标注或自动生成，覆盖了多样化的推理模式和路径。训练数据中多样化的推理路径，让模型学会了在不同的情况下选择最合适的推理策略。

o1 的定价策略也反映了推理成本的增加。相比 GPT-4，o1 的输入价格相同，但输出价格更高。这是因为 o1 的内部推理过程消耗了大量的 token，这些 token 产生在模型的内部推理阶段，最终只以摘要形式返回给用户。开发者使用 o1 时，需要为这些看不见的推理 token 付费。o1 的适用场景有明显的特点。在需要深度推理、逐步分析的场景中，o1 显著优于传统模型。在简单问答、信息提取等场景中，o1 的优势不明显，但成本和延迟更高。因此使用 o1 时需要判断问题的复杂度。简单的查询路由到普通模型，复杂的推理留给 o1。这种路由策略可以平衡推理质量和成本。

字节笔记本

OpenAI o1 的秘密不是新架构，是 Test-Time Scaling Law