Save Money

智能路由省 50%+ API 费用

通过智能模型降级策略节省 50%+ API 成本,Haiku 处理简单任务,复杂任务自动升级 Sonnet。

收藏
23.1k
安装
6k
版本
4.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Save Money 是一套模型路由决策框架,核心逻辑是「先分类、后执行」。系统预设了明确的任务复杂度判断标准,将用户请求分为「简单任务」和「复杂任务」两类。简单任务( factual Q&A、短查询、闲聊、状态检查、1-2 句话能回答的内容)由低成本 Haiku 模型处理;复杂任务(分析、比较、规划、代码生成、长文本写作、多步推理、结构化输出)则通过 sessions_spawn 调用高能力的 Sonnet 模型。

显著优点

1. 成本优化显著:官方宣称可节省 50%+ 的 API 费用,通过精准的任务分级避免在高成本模型上浪费 tokens
2. 决策逻辑清晰:提供了极其详细的「升级触发器」清单,包括按任务类型、语言示例、复杂度信号等多维度判断标准

3. 规则可迁移:虽然基于 Claude 模型编写,但提供了 OpenAI、Google 等替代模型的映射表,便于跨平台复用

4. 双向灵活:不仅支持「升级」,也支持「降级」——复杂对话后的简单跟进可切回 Haiku,持续节省成本

5. 多语言支持:整理了中英日韩德五种语言的典型请求示例,降低本地化部署门槛

潜在缺点与局限性

1. 误判风险:「30 秒思考规则」和「200 字符阈值」是启发式判断,可能将实际需要复杂推理的简单表述误判为简单任务,导致 Haiku 输出质量不足
2. 延迟开销:每次 sessions_spawn 调用涉及跨模型通信,简单任务的误判降级或复杂任务的系统调用都会引入额外 latency

3. 上下文割裂:升级后的 Sonnet 会话与原 Haiku 会话分离,长对话中的上下文继承需要额外机制保障

4. 供应商锁定表述:默认以 Anthropic 模型为基准,其他厂商的「cheap/strong」映射可能因模型能力迭代而过时

5. 维护成本:需要持续根据模型能力变化调整升级触发器清单,否则可能出现「该升级未升级」或「过度升级」的情况

适合人群

  • 高频调用 LLM API 的开发者或团队,尤其关注成本控制的场景
  • 需要处理「混合复杂度」请求的应用(如客服机器人、助手类产品)
  • 已在 Claude 生态中部署,希望优化 token 消耗的企业用户
  • 希望建立模型路由最佳实践、但缺乏判断经验的新手开发者

常规风险

  • 体验不一致:用户可能在同一对话中感受到 Haiku 和 Sonnet 的能力落差,若未妥善管理预期,可能产生「刚才还好好的,怎么突然变笨了」的负面体验
  • 隐性成本:过度保守的升级策略可能导致 Haiku 反复尝试失败,最终仍升级并消耗更多 tokens,反而增加成本
  • 数据隐私sessions_spawn 涉及跨模型数据传输,敏感场景需评估数据流转合规性

Save Money 内容

暂无文件树

手动下载zip · 7.7 kB
contentapplication/octet-stream
请选择文件