核心用法
Save Money 是一套模型路由决策框架,核心逻辑是「先分类、后执行」。系统预设了明确的任务复杂度判断标准,将用户请求分为「简单任务」和「复杂任务」两类。简单任务( factual Q&A、短查询、闲聊、状态检查、1-2 句话能回答的内容)由低成本 Haiku 模型处理;复杂任务(分析、比较、规划、代码生成、长文本写作、多步推理、结构化输出)则通过 sessions_spawn 调用高能力的 Sonnet 模型。
显著优点
1. 成本优化显著:官方宣称可节省 50%+ 的 API 费用,通过精准的任务分级避免在高成本模型上浪费 tokens
2. 决策逻辑清晰:提供了极其详细的「升级触发器」清单,包括按任务类型、语言示例、复杂度信号等多维度判断标准
3. 规则可迁移:虽然基于 Claude 模型编写,但提供了 OpenAI、Google 等替代模型的映射表,便于跨平台复用
4. 双向灵活:不仅支持「升级」,也支持「降级」——复杂对话后的简单跟进可切回 Haiku,持续节省成本
5. 多语言支持:整理了中英日韩德五种语言的典型请求示例,降低本地化部署门槛
潜在缺点与局限性
1. 误判风险:「30 秒思考规则」和「200 字符阈值」是启发式判断,可能将实际需要复杂推理的简单表述误判为简单任务,导致 Haiku 输出质量不足
2. 延迟开销:每次 sessions_spawn 调用涉及跨模型通信,简单任务的误判降级或复杂任务的系统调用都会引入额外 latency
3. 上下文割裂:升级后的 Sonnet 会话与原 Haiku 会话分离,长对话中的上下文继承需要额外机制保障
4. 供应商锁定表述:默认以 Anthropic 模型为基准,其他厂商的「cheap/strong」映射可能因模型能力迭代而过时
5. 维护成本:需要持续根据模型能力变化调整升级触发器清单,否则可能出现「该升级未升级」或「过度升级」的情况
适合人群
- 高频调用 LLM API 的开发者或团队,尤其关注成本控制的场景
- 需要处理「混合复杂度」请求的应用(如客服机器人、助手类产品)
- 已在 Claude 生态中部署,希望优化 token 消耗的企业用户
- 希望建立模型路由最佳实践、但缺乏判断经验的新手开发者
常规风险
- 体验不一致:用户可能在同一对话中感受到 Haiku 和 Sonnet 的能力落差,若未妥善管理预期,可能产生「刚才还好好的,怎么突然变笨了」的负面体验
- 隐性成本:过度保守的升级策略可能导致 Haiku 反复尝试失败,最终仍升级并消耗更多 tokens,反而增加成本
- 数据隐私:
sessions_spawn涉及跨模型数据传输,敏感场景需评估数据流转合规性