核心用法
Model Router 是一套基于 sessions_spawn 的任务分发系统,通过模型覆盖机制将不同类型的请求路由至最适合的 AI 模型。核心操作模式包括:
1. 轻量任务代理:使用 haiku-4.5 或 GLM 处理简单查询、摘要、基础问答等1-2步可完成的任务
2. 复杂任务代理:调用 codex-5.2 处理编程、调试、架构设计等需深度推理的任务
3. 均衡/创意代理:通过 sonnet 进行研究与分析,opus 处理创意写作
关键命令模式为 sessions_spawn --task "..." --model <alias>,支持标签追踪、超时控制和自动清理。
显著优点
- 成本优化显著:通过任务分层可将简单查询成本降至最低,避免对基础任务使用昂贵模型
- 并行执行能力:支持多任务并行派发,提升整体吞吐效率
- 动态升降级:提供渐进式复杂度策略,失败后可自动 escalade 至更强模型
- 用户意图尊重:识别"使用某模型"等明确指令,直接执行不覆盖
- 隔离性设计:子代理会话防止主会话上下文膨胀,保持主线程轻量
潜在局限
- 模型别名映射不透明:文档显示
haiku/GLM/sonnet/codex/opus均指向zai/glm-4.7,实际差异可能有限 - 分类启发式粗略:关键词触发规则(如"quick"→轻量)可能误判任务真实复杂度
- 上下文迁移成本:"切换模型"时需人工迁移相关上下文,无自动化机制
- 故障恢复依赖人工:子代理失败后的分析、重试流程需手动执行
- 供应商锁定风险:底层均为智谱 GLM 系列,缺乏真正的多供应商路由能力
适合人群
- 高频调用 AI 且关注成本控制的开发团队
- 需处理混合任务类型(简单查询+复杂开发)的产品经理
- 已部署智谱模型体系的企业用户
- 希望实现"智能负载均衡"但无资源自研路由系统的中小团队
常规风险
1. 模型能力与预期不符:别名映射可能导致用户误以为切换了不同能力层级的模型
2. 超时配置不当:默认超时可能过长或过短,未根据任务类型预设合理值
3. 子会话泄露:--cleanup delete 为默认但仍需显式确认,敏感任务残留风险
4. 成本追踪盲区:虽提及 model-usage 技能关联,但未展示实时成本反馈机制
5. 过度路由开销:简单任务本身的 spawn 开销可能抵消模型成本节省