使用说明

核心用法

Save Money 是一套模型路由决策框架，核心逻辑是「先分类、后执行」。系统预设了明确的任务复杂度判断标准，将用户请求分为「简单任务」和「复杂任务」两类。简单任务（ factual Q&A、短查询、闲聊、状态检查、1-2 句话能回答的内容）由低成本 Haiku 模型处理；复杂任务（分析、比较、规划、代码生成、长文本写作、多步推理、结构化输出）则通过 sessions_spawn 调用高能力的 Sonnet 模型。

显著优点

1. 成本优化显著：官方宣称可节省 50%+ 的 API 费用，通过精准的任务分级避免在高成本模型上浪费 tokens
2. 决策逻辑清晰：提供了极其详细的「升级触发器」清单，包括按任务类型、语言示例、复杂度信号等多维度判断标准
3. 规则可迁移：虽然基于 Claude 模型编写，但提供了 OpenAI、Google 等替代模型的映射表，便于跨平台复用
4. 双向灵活：不仅支持「升级」，也支持「降级」——复杂对话后的简单跟进可切回 Haiku，持续节省成本
5. 多语言支持：整理了中英日韩德五种语言的典型请求示例，降低本地化部署门槛

潜在缺点与局限性

1. 误判风险：「30 秒思考规则」和「200 字符阈值」是启发式判断，可能将实际需要复杂推理的简单表述误判为简单任务，导致 Haiku 输出质量不足
2. 延迟开销：每次 sessions_spawn 调用涉及跨模型通信，简单任务的误判降级或复杂任务的系统调用都会引入额外 latency
3. 上下文割裂：升级后的 Sonnet 会话与原 Haiku 会话分离，长对话中的上下文继承需要额外机制保障
4. 供应商锁定表述：默认以 Anthropic 模型为基准，其他厂商的「cheap/strong」映射可能因模型能力迭代而过时
5. 维护成本：需要持续根据模型能力变化调整升级触发器清单，否则可能出现「该升级未升级」或「过度升级」的情况

适合人群

高频调用 LLM API 的开发者或团队，尤其关注成本控制的场景
需要处理「混合复杂度」请求的应用（如客服机器人、助手类产品）
已在 Claude 生态中部署，希望优化 token 消耗的企业用户
希望建立模型路由最佳实践、但缺乏判断经验的新手开发者

常规风险

体验不一致：用户可能在同一对话中感受到 Haiku 和 Sonnet 的能力落差，若未妥善管理预期，可能产生「刚才还好好的，怎么突然变笨了」的负面体验
隐性成本：过度保守的升级策略可能导致 Haiku 反复尝试失败，最终仍升级并消耗更多 tokens，反而增加成本
数据隐私：sessions_spawn 涉及跨模型数据传输，敏感场景需评估数据流转合规性

cost-optimization model-routing llm-ops prompt-engineering anthropic claude api-management

Save Money 内容

暂无文件树

手动下载zip · 7.7 kB

contentapplication/octet-stream

请选择文件