过程监督比结果监督好在哪里

过程监督是 OpenAI 在训练 o1 模型的过程中验证过的一种训练方法。它在多步推理任务上的效果显著优于传统的结果监督，对于需要模型做复杂推理的场景来说，这是一个值得深入了解的技术方向。

要理解过程监督，先要知道结果监督怎么工作。结果监督的做法很简单：给模型一个问题，模型输出一个最终答案。答案对了给正奖励，错了给负奖励或不给奖励。模型通过这种简单的反馈学习如何做推理。GPT 系列训练中主要使用的就是结果监督。

结果监督的问题在于它只看最终结果，不管推理过程。如果推理过程有错误，但只要最终答案碰巧对了，模型就得到了正奖励。久而久之，模型学到的不是正确的推理方式，而是碰运气的策略。在数学推理中，一个正确答案可能是通过错误推理偶然得到的，结果监督无法区分这种情况。

过程监督做了什么改进？在推理的每一步都进行检查和评估。模型推理过程中的每一个中间步骤都被标注为正确或错误。只有全部步骤都正确的推理路径才给予完整的正奖励。如果某一步推理出错，即使最终答案对了，模型也只能得到部分的奖励信号。这种细粒度的反馈迫使模型学习正确的推理方式。

OpenAI 在数学推理任务上对两种方法做了对比实验。结果监督训练的模型在 MATH 数据集上的准确率约为 70%，过程监督训练的模型准确率提升到了约 78%，提升了 8 个百分点。对于数学推理这类对逻辑严谨性要求很高的任务来说，这个提升非常显著。

过程监督的具体实现包括几个关键环节。首先需要定义一个推理步骤的粒度，太粗无法定位错误，太细则标注成本过高。通常以自然语言的一句话或数学推导的一个步骤为基本单元。然后需要为每个步骤标注是否正确，标注人员需要具备领域知识。最后训练一个奖励模型来预测每个步骤的正确性，替代人工标注。

过程监督的效果好，但标注成本也高。结果监督只需要标注最终答案是否正确，标注员几十秒就能完成。过程监督需要标注每一步推理，每一步都要检查，标注一个问题可能需要几分钟。OpenAI 训练了一个专门的自动标注模型来替代人工标注，降低了标注成本。

过程监督不仅在训练阶段有用，在推理阶段也可以应用。模型在推理时生成每一步的推理过程，然后用训练好的过程奖励模型评估每一步的正确性。如果某一步的得分较低，模型可以回溯重新推理。这种方式在推理时也提供了质量保证。

过程监督的应用不限于数学推理。在代码生成、逻辑推理、决策规划等需要多步推理的任务中，过程监督同样有效。关键在于推理步骤能否清晰地定义和判断。如果任务的正确性难以分步判断，过程监督的优势就不明显。

对于大多数团队来说，如果资源充裕、模型需要做复杂的多步推理且准确性要求很高，过程监督值得投入。如果推理步骤不多或者可以接受偶尔的推理错误，结果监督已经足够。

过程监督与结果监督可以组合使用。先用结果监督进行大规模预筛选，淘汰那些最终答案明显错误的输出。然后对通过筛选的输出应用过程监督，评估推理过程的质量。这种两阶段策略在保持评估质量的同时，降低了整体标注成本。过程监督的奖励模型训练也需要特别的处理。奖励模型的训练数据包括每个推理步骤的正确性标注，训练目标和传统的分类任务类似。但推理步骤的标注存在一定的主观性，同一个推理操作不同的标注者可能有不同的判断。因此奖励模型的训练数据需要多人标注并取多数一致，降低主观偏差的影响。

过程监督在代码生成任务中也展示了价值。代码的每个步骤可以通过编译或单元测试自动验证，不需要人工判断。如果一个代码生成问题的解决方案中，部分代码逻辑正确部分错误，结果监督无法区分这种情况。过程监督可以定位到具体的错误代码行，更精确地反馈模型。OpenAI 在处理 o1 的训练中大规模使用了过程监督。推理模型的训练需要模型学会自我检视和纠错，过程监督提供了这种能力。通过在训练中关注每一步推理质量，模型在推理时也习惯了分步推理和自我修正。这是 o1 在复杂推理任务上表现出色的关键原因之一。

字节笔记本

过程监督比结果监督好在哪里