字
字节笔记本
2026年5月31日
大模型微调:全量、LoRA、QLoRA 三种选型
API中转
¥120
大模型微调的基本概念其实不多,搞清楚几个关键术语就行。
全量微调(Full Fine-tuning)更新模型的所有参数,效果最好但计算成本最高,需要多卡甚至多机训练。
LoRA(Low-Rank Adaptation)冻结原始模型参数,插入少量可训练的低秩矩阵。只需要更新原始参数量的 0.1% 到 1%,一张消费级显卡就能跑。
QLoRA 在 LoRA 的基础上对模型参数做量化(通常 4-bit),进一步降低显存需求。一张 24GB 的 RTX 3090 就能微调 70B 级别的模型。
选择哪种取决于你的资源。有钱有卡用全量微调,资源有限用 LoRA,资源紧张用 QLoRA。
分享: