字
字节笔记本
2026年5月31日
大模型评测的难点不在benchmark,在场景
API中转
¥120
大模型评测是一个被严重低估的难题。评测集设计得好不好,直接决定了模型优化的方向对不对。
"数星星"是一种直观的评测思路:不看模型在各种 benchmark 上的分数,而是看它在实际使用场景中能不能完成真实任务。每完成一个任务就是一颗星星,完不成就没有。
这种评测方式的优势是贴近实际使用体验。但没有标准化的评测集,不同团队的评测结果无法横向对比。实践中通常把标准化评测和场景化评测结合起来用。
分享: