ByteNoteByteNote

字节笔记本

2026年5月31日

SFT 实战四条铁律:数据质量、学习率、轮数、混合数据

API中转
¥120

监督微调(SFT)的实战经验可以总结为四条。

数据质量比数据量重要。一千条高质量数据的效果往往好于一万条噪声数据。每条数据都要经过人工审核,确保输入输出对齐。

学习率要足够小。SFT 不是从头训练,是在原模型上微调。学习率太大容易破坏原始能力。通常 1e-5 到 2e-5 是比较安全的范围。

训练轮数不宜过多。2 到 3 个 epoch 就足够,再多就开始过拟合。监控验证集 loss,loss 开始回升立即停止。

混合原始数据。在微调数据中混合一定比例(通常是 10%-20%)的原始预训练数据,可以缓解灾难性遗忘。

分享: