大模型评测的难点不在benchmark，在场景

大模型评测是一个被严重低估的难题。很多团队花大量精力训练或微调模型，最后发现效果"说不清楚"。不是因为模型不好，而是因为没有建立有效的评测体系。

目前主流的评测方式分为两大类。标准化评测使用公开的 benchmark 数据集，比如 MMLU、HumanEval、GSM8K、HellaSwag 等，模型在这些数据集上的分数可以横向对比。优点是标准化程度高，结果可复现、可对比。缺点也很明显：这些 benchmark 离实际使用场景较远。一个模型在 MMLU 上拿了高分，不等于在你的业务场景中好用。而且公开 benchmark 存在数据泄露的风险——模型可能在训练时已经见过这些题目。

场景化评测是针对你的实际使用场景设计评测任务。比如你做的是客服机器人，就收集真实的客服对话作为评测集。这种方式的优点是贴近实际使用体验，评测结果能直接反映模型在生产环境中的表现。缺点是没有标准化，不同团队之间的评测结果无法直接对比。而且构建场景化评测集需要投入大量人力来标注和审核。

实践中比较有效的做法是把两者结合起来。用标准化评测做模型选型的初步筛选，几个候选模型在 benchmark 上的分数差距太大时，分数低的可以直接排除。分数接近的模型再进入场景化评测环节，用真实的业务数据做 A/B 测试，看在具体场景中哪个模型表现更好。

评测体系的设计还需要考虑评测维度。单一维度的评测往往无法全面反映模型能力。对于客服场景，至少需要评测回答的准确性、完整性、合规性和用户体验。每个维度设计独立的评测任务和评分标准，综合评分才能反映模型的真实水平。

OpenAI 在其评测实践中提出了一种分级评测框架。第一层是单元测试级别的评测，测试模型是否能正确调用工具、格式是否正确。第二层是任务级别的评测，测试完整任务是否完成、完成质量如何。第三层是用户级别的评测，测试整体体验是否符合预期。这种分层评测体系能更系统地发现模型在不同层面的问题。

还有一个容易忽视的问题：评测集与训练集的隔离。很多团队犯了这样一个错误：把评测集中表现不好的案例直接拿回去当训练数据重新训练。这样做会让评测集逐渐失效，因为模型已经见过评测集中的内容了，评测分数虚高但不能反映真实能力。正确的做法是评测集和训练集完全隔离，评测集的数据绝对不能出现在训练数据中。

A/B 测试是评测体系的最后一道防线。离线评测通过了，不等于在线表现就好。因为离线评测无法模拟真实用户的多样性和不可预测性。模型可能在评测集上表现良好，但上线后遇到评测集未覆盖的场景时表现不佳。因此，在正式上线前做小流量的 A/B 测试是必要的。对比新模型和旧模型在同一批流量上的关键指标，确认新模型确实更好后再全量上线。

评测不是一次性工作。模型在迭代，业务场景在变化，评测集也需要持续更新。每次生产环境出现异常案例时，把这些案例补充进评测集，防止同样的问题再次出现。评测体系的质量，决定了模型优化的方向对不对。方向对了，优化才有意义，方向偏了投入再多资源也是南辕北辙。

评测集的设计还需考虑数据的多样性。好的评测集应该覆盖正常情况、边界情况和异常情况。正常情况验证模型在标准输入下的表现，边界情况测试模型在输入接近限制时的不当行为，异常情况测试模型面对不合规输入时的处理能力。三种情况的覆盖比例可以根据业务需求调整。分级评测也是一个有效的方法。从简单到复杂，分级评测可以更精细地了解模型在各个层面的能力。第一级测试基础问答能力，第二级测试多轮对话能力，第三级测试工具调用能力，第四级测试复杂推理能力。这种分级方式可以帮助定位模型在哪个层面存在问题，便于有针对性地改进。

字节笔记本

大模型评测的难点不在benchmark，在场景