核心用法
A.I. Smart-Router 是一款专家感知型模型路由系统,通过三层决策机制自动将用户请求分配给最适合的AI模型:
1. 意图检测(Tier 1):识别 CODE、ANALYSIS、CREATIVE、REALTIME、GENERAL 五类意图
2. 复杂度估算(Tier 2):按 SIMPLE/MEDIUM/COMPLEX 分级匹配成本层级
3. 特殊覆盖(Tier 3):处理长上下文(>100K → Gemini)、实时数据(→ Grok)、用户显式覆盖等场景
核心操作完全透明——用户正常发送消息即可,无需特殊命令。可选 [show routing] 查看路由决策,或使用 "use claude:" 等前缀强制指定模型。
关键特性
- 语义域检测:基于关键词、文件扩展名、代码块自动分类意图
- 成本优化:SIMPLE任务限制在$层级(Flash/Haiku),绝不滥用Opus处理简单查询
- 自动故障转移:Token耗尽、速率限制、API错误时无缝切换并通知用户
- 上下文保护:>150K自动路由Gemini(1M上下文),>1M时优雅降级并建议分块
- 熔断机制:模型5分钟内失败3次则暂时跳过,避免反复命中故障服务
- 流式响应保护:等待首块数据成功后再开始输出,避免中途失败导致内容丢失
路由矩阵示例
| 意图 | 简单 | 中等 | 复杂 |
|------|------|------|------|
| CODE | Sonnet | Opus | Opus |
| ANALYSIS | Flash | GPT-5 | Opus |
| REALTIME | Grok | Grok | Grok-3 |
| GENERAL | Flash | Sonnet | Opus |
显著优点
1. 成本效率:通过前置成本过滤确保简单问题永不浪费昂贵模型,估算可节省60-80%的API费用
2. 零摩擦体验:无需用户学习模型差异,系统自动优化
3. 高可用性:多层级故障转移链保障服务连续性
4. 透明可控:可选显示路由逻辑,支持显式模型覆盖
5. 多语言支持:意图检测对非英语查询有效(基于查询长度、文件扩展名等语言无关信号)
6. 安全合规:敏感凭证自动脱敏,API密钥通过环境变量管理
潜在缺点与局限性
1. 实时数据依赖单一供应商:Grok是唯一实时数据源,其故障时无等效替代,只能回退到非实时模型+警告
2. Gemini关键路径风险:超长上下文(>200K)完全依赖Gemini,若Google API不可用则无法处理大文档
3. 复杂度估算启发式:基于词数、标点等简单规则,可能误判(如短而难的数学证明)
4. 混合意图优先级固定:REALTIME > CODE > ANALYSIS > CREATIVE 的优先级可能不符合所有场景需求
5. 流式延迟权衡:等待首块确认增加了首字节时间(TTFB),对延迟敏感场景有影响
6. 2026年2月基准依赖:模型性能数据来自特定时间点,需持续更新基准
适合人群
- 多模型API用户:同时使用Claude、GPT、Gemini、Grok多个服务商的团队
- 成本敏感型企业:希望优化AI支出的同时保持输出质量
- 高可用需求场景:不能容忍单模型API故障导致服务中断的生产环境
- 上下文密集型应用:处理长文档、代码库、大型数据分析任务
- 非技术终端用户:不想理解模型差异,期望"一个入口智能处理"的场景
常规风险
| 风险类型 | 描述 | 缓解措施 |
|---------|------|---------|
| **模型可用性风险** | 服务商API中断或配额耗尽 | 三级故障转移链+熔断机制+用户通知 |
| **成本失控风险** | 复杂度误判导致昂贵模型滥用 | 前置成本过滤+偏好排序双重保障 |
| **数据隐私风险** | 敏感数据路由至不可信模型 | 按意图限制模型选择+自动凭证脱敏 |
| **质量不一致风险** | 故障转移后输出质量变化 | 明确告知用户模型切换+设置适当期望 |
| **上下文截断风险** | 超大输入超过所有模型限制 | 自动检测+分块建议+友好错误提示 |
| **实时性失效风险** | Grok不可用时实时查询降级 | 明确警告用户数据可能过时 |
配置要求
- 必需:Python3 运行时、ANTHROPIC_API_KEY
- 可选:OPENAI_API_KEY、GOOGLE_API_KEY、XAI_API_KEY(缺失时自动降级路由)