ByteNoteByteNote

字节笔记本

2026年6月3日

Sub2API OpenAI Fast 模式配置指南:service_tier 透传与默认注入

API中转
¥120

Sub2API 是一个 OpenAI 账号聚合转发网关。它支持通过 service_tier 字段配置请求的 fast/极速模式。以下是完整的配置指南。

什么是 fast 模式

OpenAI 提供了不同的服务层级,priority(即 fast/极速)优先级最高,响应更快但消耗更多配额。在请求体里通过 service_tier 字段指定。

三种场景的配置方式

场景一:客户端自己会发 service_tier

在后台开启透传:

  1. 进入 系统设置 -> 网关服务 -> OpenAI Fast/Flex 策略
  2. service_tier 匹配:priority(fast)
  3. 处理方式:透传(保留 service_tier)
  4. 生效范围:全部账号 或 仅 OAuth 账号
  5. 模型白名单:留空 = 所有模型生效;只想给 GPT-5.5 生效可填 gpt-5.5*

客户端请求体带上:

json
{
  "service_tier": "priority"
}

场景二:客户端 UI 没有 fast 选项

用环境变量设置网关级默认值:

bash
GATEWAY_OPENAI_DEFAULT_SERVICE_TIER=priority

行为逻辑:

  • 客户端没传 service_tier 时,网关在转发前自动补注入
  • 客户端已传 service_tier 时,优先尊重客户端值,不覆盖
  • 补完后继续走现有 OpenAI Fast/Flex 策略(透传/过滤/拦截规则仍然生效)

覆盖了 /responses、OpenAI passthrough/raw body、以及 WebSocket response.create

场景三:验证是否生效

查数据库 usage_logs

sql
SELECT id, model, service_tier, reasoning_effort, created_at
FROM usage_logs
ORDER BY id DESC
LIMIT 20;

service_tier = priority 说明极速模式已在转发层生效。

关键点

  • fastpriority 是同一个东西,Sub2API 会把 fast 规范化成 priority
  • 后台策略只控制"是否允许透传",不会自动给所有请求加 fast
  • 两个配置要配合用才完整:策略设透传 + 客户端发字段(或环境变量兜底)

如何关闭 fast 模式

后台策略层面关闭

进入 系统设置 -> 网关服务 -> OpenAI Fast/Flex 策略,将处理方式改为:

  • 过滤(filter):客户端发了 service_tier: priority/fast,网关把这个字段从请求体里剥掉,上游收到的是没有 service_tier 的普通请求,静默降级
  • 拦截(block):客户端发了 service_tier: priority/fast,网关直接返回错误,请求不会转发

推荐用过滤,对客户端透明,不会造成报错。

同时确认环境变量没有设置默认注入:

bash
GATEWAY_OPENAI_DEFAULT_SERVICE_TIER=

留空或不配置这个变量,否则即使策略设了过滤,网关自己也会在转发前把 service_tier 补回去。

分享: