ByteNoteByteNote

字节笔记本

2026年5月31日

过程监督比结果监督好在哪里

API中转
¥120

过程监督(Process Supervision)是 OpenAI 在数学推理任务上验证过的一种训练方法,效果显著优于结果监督(Outcome Supervision)。

结果监督只看最终答案对不对,对了给奖励,错了不给。问题在于,如果推理过程有错误但最终答案碰巧对了,模型学到的是错误的推理方式。过程监督在每一步推理都检查是否正确,每一步都给予反馈。

实现过程监督需要人工标注每一步推理的正确性,标注成本很高。但 OpenAI 的实验表明,过程监督训练的模型在数学推理上的准确率显著高于结果监督。对于需要多步推理的任务,过程监督的效果提升值得投入标注成本。

分享: