用斯坦福的这条 Prompt,普通模型也能像 o1 一样先思考再回答
Let's think step by step加上写推理过程检查错误。触发chain-of-thought机制。最接近o1的免费方案。
Let's think step by step加上写推理过程检查错误。触发chain-of-thought机制。最接近o1的免费方案。
预训练模型适应特定任务。几百条高质量数据加一张消费级显卡,就能做出比prompt工程好得多的专用模型。
重复使用的prompt前缀不再重复计算。相同前缀token成本降低50%,响应延迟减少50%。高频API调用场景收益最大。
结果监督只看最终答案,过程监督检查每一步推理。标注成本高但数学推理准确率显著提升。
一千条高质量数据好过一万条噪声。学习率1e-5到2e-5。2-3个epoch足够。混合10-20%原始预训练数据防遗忘。
结构化剪枝+知识蒸馏深度结合。剪掉不重要参数后用Teacher弥补损失。压缩后可直接部署无需特殊推理框架。
角色指令+知识库+工具三要素配置Agent。丰富的预置插件生态,非技术用户上手门槛最低的Agent构建工具。
全量微调效果最好但成本最高。LoRA只需更新0.1%参数。QLoRA量化到4-bit让24GB显卡微调70B模型。
让模型在复杂问题上多想一会儿。用推理时间换准确率,在数学编程等需要多步逻辑的任务上效果显著。
链式法则逐层计算每个参数对损失的梯度。没有反向传播,多层神经网络无法训练,深度学习一切成果无从谈起。
AI自我纠错机制。第一轮生成初始回答,第二轮以审查者身份检查改进。无需额外数据无需外部评分器。
标准化评测有分数但离实际远,场景化评测贴近使用但无法横向对比。实践中两者结合效果最好。
微调(SFT)监督学习教模型模仿输出格式。强化学习(RL)通过奖励信号教模型推理和规划。核心区别:教怎么说vs教怎么想。
Workflow设计是LLM应用的真正门槛。控制层负责编排,执行层负责工具调用,知识层负责上下文管理。每层独立演化,还要做好容错。
别吹了,OpenAIo1绝没吹的那么神,用斯坦福的这条Prompt,一样实现说话之前先思考 作者: 发布时间: 20260213 分类: 模型微调 OpenAI发布的o1模型引起了不小的轰动。许多人都在赞叹o1模型那所谓的"思考先于言语"的能力。作为一名AI研究者,我不禁要问:o1真的有那么神奇吗?
2分钟理解什么是大模型微调? 作者: 发布时间: 20260213 分类: 模型微调 大模型微调(Finetuning)是一种在深度学习领域,特别是基于预训练大模型的基础上进行的优化技术,以下是关于它的详细介绍: 1. 基本概念: 从字面意思理解,是在通用大模型的基础上,针对超出其范围或不擅长的特定
OpenAI终于推出Prompt Caching:成本砍半、速度翻倍!细节介绍都在这里了 作者: 发布时间: 20260213 分类: 模型微调 OpenAI 终于推出Prompt Caching 给开发者省钱了。 !https://api.ibos.cn/v4/weapparticle/acces
逻辑推理大升级!过程监督助力模型推理能力更强大 作者: 发布时间: 20260213 分类: 模型微调 由OpenAI的Hunter Lightman、Vineet Kosaraju、Yura Burda、Harri Edwards等作者撰写的Let's Verify Step by Step,文章
细谈大模型监督微调SFT:实战经验技巧和debug分析思路 作者: 发布时间: 20260213 分类: 模型微调 这篇文章介绍一下大模型的 SFT 如何去做。SFT 其实没有太多的技术细节和琐碎工作需要科普。因此,我会默认读者们都知道 SFT 是做什么的以及如何去做一些简单的 SFT 微调工作,我
“我”变小了但更强了!英伟达发布最新大语言模型压缩技术,无损性能且提升数倍! 作者: 发布时间: 20260213 分类: 模型微调 !https://api.ibos.cn/v4/weapparticle/accesswximg?aid=90437&url=aHR0cHM6Ly9tbWJpei5x