smart-router

🧭 智能模型路由与成本优化专家

基于2026年基准测试的智能模型路由系统,自动为代码、分析、创意等任务选择最优AI模型,支持Claude/GPT/Gemini/Grok四大家族,具备成本优化与故障自动切换能力。

收藏
2.3k
安装
1.1k
版本
v0.1.2
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

A.I. Smart-Router 是一个透明的智能模型路由中间件,用户无需学习任何特殊指令即可使用。系统通过三层决策架构自动分析请求:第一层识别意图类型(代码/分析/创意/实时/通用),第二层评估复杂度(简单/中等/复杂),第三层处理特殊覆盖场景(超长上下文、实时数据需求、用户显式指定)。支持 [show routing]] 查看路由决策,也可通过 use claude:: 等前缀强制指定模型。

显著优点

智能化程度极高:基于语义域检测而非简单关键词匹配,能识别混合意图任务并自动升级至最高能力模型。超长上下文保护机制在超过15万token时自动切换至Gemini Pro(100万上下文),避免任务失败。

成本优化精细:建立四级成本体系($到$$$$),简单任务强制限定在Flash/Haiku等低价模型,复杂任务才启用Opus/GPT-5,从源头杜绝"用大炮打蚊子"。

容错机制完善:熔断器防止级联故障,速率限制避免预算失控,token耗尽时自动降级并透明通知用户,支持流式响应的中途故障恢复。

安全设计周全:四级数据分类(PUBLIC/INTERNAL/CONFIDENTIAL/RESTRICTED)、敏感数据自动检测、API密钥绝不硬编码、错误信息脱敏处理。

潜在缺点与局限性

实时任务存在单点风险:Grok是唯一实时数据源,若XAI服务故障且无备用实时源,实时查询将降级为普通模型并丢失时效性。

T3来源维护不确定性:个人开发者项目,长期更新承诺需观察,企业级部署建议fork后自主维护。

配置复杂度较高:需同时管理多厂商API密钥,auth profiles配置对新手不够友好,调试路由决策需要一定学习成本。

中文优化待验证:虽声称支持100+语言,但意图检测关键词库以英文为主,复杂中文表达的意图识别准确率可能下降。

适合的目标群体

  • 多模型AI团队:已订阅多个AI服务,希望统一入口并优化成本的技术团队
  • 长文档处理场景:法律、科研、金融等需要处理百万token级文档的专业领域
  • 成本敏感型应用:C端产品或大规模内部工具,需严格控制AI调用成本
  • 高可用要求场景:不能容忍单模型故障导致服务中断的生产环境

使用风险

性能风险:模型自动切换增加首次响应延迟(需检测可用性),流式响应需等待首chunk确认才输出,极端情况下延迟可达10秒以上。

依赖风险:强依赖外部AI服务商稳定性,若Anthropic/Google/OpenAI/XAI同时出现区域性故障,系统将完全不可用(虽概率极低)。

成本失控风险:自动降级机制可能将复杂任务路由至低价但能力不足模型,导致多次重试反而增加总成本;实时任务强制使用Grok可能产生意外高额账单。

数据合规风险:自动路由可能将敏感数据发送至用户未预期的模型(如欧盟数据被路由至美国服务商),需配合数据分类功能谨慎配置。

安全解读

Smart-Router 综合评估

核心用法

Smart-Router 是一款 AI 模型智能路由 skill,通过三层决策系统自动将用户请求路由至最适合的大语言模型。用户无需特殊指令即可透明使用;如需查看路由决策,可在消息中添加 [show routing]

三层决策架构

  • Tier 1 意图检测:识别 CODE/ANALYSIS/CREATIVE/REALTIME/GENERAL 五类意图
  • Tier 2 复杂度估计:按 SIMPLE/MEDIUM/COMPLEX 分级,匹配对应成本模型
  • Tier 3 特殊覆盖:处理长上下文(>100K→Gemini)、实时数据、视觉输入等边界情况

典型路由矩阵

| 意图 | 简单 | 中等 | 复杂 |
|------|------|------|------|
| CODE | Sonnet | Opus | Opus |
| REALTIME | Grok | Grok | Grok-3 |
| GENERAL | Flash | Sonnet | Opus |

显著优点

1. 成本优化机制
采用四级成本体系($→$$$$),确保"2+2"级别问题不会误用 Opus。成本过滤在路由表查询前执行,实现"防御式"成本管控。

2. 自动故障转移

  • 支持 token 配额耗尽、速率限制、上下文超限等多类故障场景
  • 按任务类型维护专属回退链(Code任务:Opus→Sonnet→GPT-5→Gemini Pro)
  • 流式响应采用"首块等待"策略,失败前不暴露部分内容

3. 长上下文专门处理

  • 128K-200K:Opus/Sonnet 优先,回退至 Gemini Pro
  • 200K-1M:强制 Gemini 系列
  • >1M:优雅报错,提供分块处理选项

4. 安全机制完善

  • InputSanitizer 实现输入清理与 PII 检测
  • 自动阻止 API 密钥、AWS 凭证、私钥等敏感数据外传
  • 断路器模式:单模型 3 次失败/5 分钟后自动隔离

潜在局限

1. 实时任务单点依赖
Grok 为唯一实时数据源,无等效回退选项。当 xAI 服务不可用时,系统只能降级至非实时模型并发出警告。

2. T3 来源信任等级
作者 c0nSpIc0uS7uRk3r 为个人开发者,虽代码质量获 S 级认证,但长期维护稳定性、安全更新响应速度需持续观察。

3. 配置复杂度
需管理多厂商 API 密钥(Anthropic 必需,Google/OpenAI/xAI 可选),且要求 OpenClaw 运行环境,对轻量级部署不够友好。

4. 意图检测的语言边界
虽宣称支持非英语,但关键词模式仍以英文为主,小语种复杂意图可能存在误判风险。

适合人群

  • 多模型团队:已订阅 Claude/GPT/Gemini/Grok 多家服务,希望统一入口优化成本
  • 长文档处理者:频繁处理 100K+ token 上下文,需自动切换 Gemini Pro
  • 实时信息需求:需要集成 X/Twitter 实时数据的分析场景
  • 安全敏感场景:对 PII 泄露、凭证外发有严格合规要求的企业用户

常规风险

| 风险类别 | 等级 | 说明 |
|---------|------|------|
| 凭证泄露 | 低 | PII 检测与凭证阻止机制完善,GDPR 合规 |
| 成本失控 | 极低 | 成本过滤优先执行,SIMPLE 任务锁定 $ 级模型 |
| 服务中断 | 中 | 除 Grok 实时任务外,均有多级回退 |
| 供应链攻击 | 中 | T3 来源需关注更新,建议 fork 后自行维护关键补丁 |

smart-router 内容

references文件夹
手动下载zip · 76.9 kB
models.mdtext/markdown
请选择文件