字
字节笔记本
2026年5月31日
强化学习和微调的区别:一个教怎么说,一个教怎么想
API中转
¥120
强化学习和微调是两种完全不同的训练范式,经常被混淆。
微调(SFT)是监督学习,用标注好的输入输出对训练模型。模型学习模仿标注数据中的模式。适合让模型掌握特定格式、特定风格、特定知识。
强化学习(RL)是通过奖励信号训练模型。模型试错,做对了得到正奖励,做错了得到负奖励。模型学习最大化累积奖励的策略。适合让模型学会推理、规划、工具使用等难以通过简单模仿获得的能力。
两者的核心区别:微调教模型"怎么说",强化学习教模型"怎么想"。
分享: