使用说明

核心用法

A.I. Smart-Router 是一款专家感知型模型路由系统，通过三层决策机制自动将用户请求分配给最适合的AI模型：

1. 意图检测（Tier 1）：识别 CODE、ANALYSIS、CREATIVE、REALTIME、GENERAL 五类意图
2. 复杂度估算（Tier 2）：按 SIMPLE/MEDIUM/COMPLEX 分级匹配成本层级
3. 特殊覆盖（Tier 3）：处理长上下文（>100K → Gemini）、实时数据（→ Grok）、用户显式覆盖等场景

核心操作完全透明——用户正常发送消息即可，无需特殊命令。可选 [show routing] 查看路由决策，或使用 "use claude:" 等前缀强制指定模型。

关键特性

语义域检测：基于关键词、文件扩展名、代码块自动分类意图
成本优化：SIMPLE任务限制在$层级（Flash/Haiku），绝不滥用Opus处理简单查询
自动故障转移：Token耗尽、速率限制、API错误时无缝切换并通知用户
上下文保护：>150K自动路由Gemini（1M上下文），>1M时优雅降级并建议分块
熔断机制：模型5分钟内失败3次则暂时跳过，避免反复命中故障服务
流式响应保护：等待首块数据成功后再开始输出，避免中途失败导致内容丢失

路由矩阵示例

| 意图 | 简单 | 中等 | 复杂 |

|------|------|------|------|

| CODE | Sonnet | Opus | Opus |

| ANALYSIS | Flash | GPT-5 | Opus |

| REALTIME | Grok | Grok | Grok-3 |

| GENERAL | Flash | Sonnet | Opus |

显著优点

1. 成本效率：通过前置成本过滤确保简单问题永不浪费昂贵模型，估算可节省60-80%的API费用
2. 零摩擦体验：无需用户学习模型差异，系统自动优化
3. 高可用性：多层级故障转移链保障服务连续性
4. 透明可控：可选显示路由逻辑，支持显式模型覆盖
5. 多语言支持：意图检测对非英语查询有效（基于查询长度、文件扩展名等语言无关信号）
6. 安全合规：敏感凭证自动脱敏，API密钥通过环境变量管理

潜在缺点与局限性

1. 实时数据依赖单一供应商：Grok是唯一实时数据源，其故障时无等效替代，只能回退到非实时模型+警告
2. Gemini关键路径风险：超长上下文（>200K）完全依赖Gemini，若Google API不可用则无法处理大文档
3. 复杂度估算启发式：基于词数、标点等简单规则，可能误判（如短而难的数学证明）
4. 混合意图优先级固定：REALTIME > CODE > ANALYSIS > CREATIVE 的优先级可能不符合所有场景需求
5. 流式延迟权衡：等待首块确认增加了首字节时间（TTFB），对延迟敏感场景有影响
6. 2026年2月基准依赖：模型性能数据来自特定时间点，需持续更新基准

适合人群

多模型API用户：同时使用Claude、GPT、Gemini、Grok多个服务商的团队
成本敏感型企业：希望优化AI支出的同时保持输出质量
高可用需求场景：不能容忍单模型API故障导致服务中断的生产环境
上下文密集型应用：处理长文档、代码库、大型数据分析任务
非技术终端用户：不想理解模型差异，期望"一个入口智能处理"的场景

常规风险

| 风险类型 | 描述 | 缓解措施 |

|---------|------|---------|

| **模型可用性风险** | 服务商API中断或配额耗尽 | 三级故障转移链+熔断机制+用户通知 |

| **成本失控风险** | 复杂度误判导致昂贵模型滥用 | 前置成本过滤+偏好排序双重保障 |

| **数据隐私风险** | 敏感数据路由至不可信模型 | 按意图限制模型选择+自动凭证脱敏 |

| **质量不一致风险** | 故障转移后输出质量变化 | 明确告知用户模型切换+设置适当期望 |

| **上下文截断风险** | 超大输入超过所有模型限制 | 自动检测+分块建议+友好错误提示 |

| **实时性失效风险** | Grok不可用时实时查询降级 | 明确警告用户数据可能过时 |

配置要求

必需：Python3 运行时、ANTHROPIC_API_KEY
可选：OPENAI_API_KEY、GOOGLE_API_KEY、XAI_API_KEY（缺失时自动降级路由）

安全解读

核心功能

smart-router 是一个企业级智能模型路由系统，实现请求的自动化最优模型选择。其核心价值在于通过三层决策架构（意图识别→复杂度评估→特殊条件覆盖）动态路由至 Claude、GPT、Gemini、Grok 四大模型家族，同时兼顾性能与成本。

显著优点

1. 智能分层决策：独创的三级路由架构——T1 意图分类（代码/分析/创意/实时/通用）、T2 复杂度评估（简单/中等/复杂）、T3 特殊覆盖（上下文溢出>150K强制Gemini、实时数据强制Grok），确保任务-模型精准匹配
2. 零中断故障转移：内置 Circuit Breaker 与持久化状态管理，支持令牌耗尽、速率限制、API超时等6类故障的自动降级，用户侧仅收到透明通知
3. 成本优先设计：强制成本过滤机制确保"2+2=?"类简单查询绝不会流经Opus（$$$$），而是路由至Flash/Haiku（$）
4. 超长上下文支持：唯一原生支持1M上下文的Gemini Pro作为溢出保护后盾，200K-1M区间自动切换
5. 安全内置：输入消毒管道（Unicode规范化、控制字符剥离）、敏感数据正则检测、API密钥环境变量隔离

潜在局限

实时任务单点风险：Grok无同类替代，故障时仅能降级至Opus并丢失实时性
审计日志留存：路由决策日志记录完整请求元数据，需关注隐私合规
配置依赖：需正确设置ANTHROPIC_API_KEY等4个环境变量，否则功能降级
流式响应中断损失：首chunk超时前已生成的流内容会丢失

适合人群

多模型API密钥持有者，希望统一入口优化成本
需要处理超长文档（>128K tokens）的RAG/分析场景
高可用要求的生产环境（需实时数据+代码生成的混合工作流）
对AI响应质量敏感、愿为复杂任务支付溢价的专业用户

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 供应商锁定 | 中 | 依赖特定模型版本的评分基准（Feb 2026） |

| 成本失控 | 低 | 强制成本过滤机制有效，但复杂任务链可能累积费用 |

| 数据跨境 | 中 | 请求可能路由至Anthropic/US、Google/多区域、xAI/US |

| 日志泄露 | 低 | 审计日志含完整元数据，建议配置日志脱敏 |

ai-routing model-selection cost-optimization multi-llm fault-tolerance context-management api-management claude gpt gemini grok

A.I. Smart Router 内容

references文件夹

手动下载zip · 78.9 kB

models.mdtext/markdown

请选择文件