ByteNoteByteNote

字节笔记本

2026年5月31日

OpenAI Prompt Caching:成本砍半,速度翻倍

API中转
¥120

Prompt Caching 是 OpenAI 推出的成本优化功能,核心思路简单直接:重复使用的 prompt 前缀不再重复计算。

很多 AI 应用在同一轮会话中的多条请求共享相同的 system prompt、工具定义和上下文信息。传统做法是每次请求都重新处理这些重复内容,浪费了大量计算资源。Prompt Caching 自动检测并缓存这些重复的 token,再次命中时直接从缓存读取结果。

效果:相同前缀的 token 成本降低 50%,响应延迟减少约 50%。对于高频调用 API 的应用(客服机器人、代码助手、内容审核),这个优化能大幅降低运营成本。

分享: