llmrouter

🔀 智能路由降本增效的LLM代理

开源智能LLM路由代理,自动按复杂度分流请求至最优模型,显著降低API成本,支持Anthropic/OpenAI/Gemini等主流平台。

收藏
6.8k
安装
2.3k
版本
127.0.0
CLS 安全性认证2026-05-21
点击查看完整报告 >

使用说明

核心用法

LLM Router 是一个智能代理服务器,通过分析用户请求的复杂度,自动将查询路由到最合适的语言模型。用户只需向统一的 OpenAI 兼容 API 端点发送请求,系统内置的分类器会将任务划分为五个等级(super_easy/easy/medium/hard/super_hard),并匹配预设的模型配置完成转发。支持本地 Ollama 分类(免费)或远程 API 分类(快速),可与 OpenClaw 深度集成实现无缝替换默认模型。

显著优点

成本优化效果显著:简单问候使用 Haiku/GPT-4o-mini 等低价模型,复杂推理才调用 Opus/o3 等高端模型,实测可降低 60-80% 的 API 支出。多厂商统一接入:单一接口兼容 Anthropic、OpenAI、Google Gemini、Kimi/Moonshot 及本地 Ollama,无需修改客户端代码即可切换供应商。部署灵活:支持 Python 虚拟环境本地运行、macOS LaunchAgent 后台服务、Docker 化部署等多种方式。透明可审计:每次请求记录实际使用的模型,便于成本追踪和性能调优。

潜在缺点与局限性

额外延迟开销:分类步骤增加 50-200ms 的首次响应时间,对延迟敏感场景需权衡。分类准确性依赖调优:默认的 ROUTES.md 规则可能不适用于特定业务场景,需要持续优化分类阈值。配置复杂度较高:初学者需理解 YAML 配置结构、环境变量注入、OAuth 令牌处理等概念。本地分类硬件要求:使用 Ollama 本地分类需要 4GB+ 显存或充足内存,低配机器只能依赖远程分类增加成本。错误调试困难:路由失败时需在分类器、目标模型、网络层之间定位问题,日志分散。

适合的目标群体

高频 LLM 调用者:日均消耗 $10+ API 费用的团队或个人开发者。多模型策略用户:需要同时管理多个供应商账户、比较模型表现的工程团队。OpenClaw 生态用户:希望为 Claude Code 等工具添加智能路由能力的进阶用户。成本敏感型企业:有明确预算控制需求、愿意投入配置时间换取长期节省的中小团队。

使用风险

API 密钥泄露风险:配置文件中明文存储密钥,共享环境或版本控制误提交可能导致凭证泄露,建议使用环境变量注入或密钥管理服务。供应商锁定转移:过度依赖特定低价模型后,若供应商调价或 deprecate 模型,需紧急调整路由策略。分类误判成本:关键任务被错误分类到轻量模型可能导致输出质量下降,建议对金融、医疗等高风险场景设置保守路由规则。服务可用性依赖:作为中间代理,LLM Router 本身成为单点故障,生产环境需考虑进程守护和健康检查机制。

安全解读

核心用法

LLM Router 是一个智能代理服务器,作为用户与多个大语言模型之间的中间层。用户发送请求时,系统首先通过分类器判断任务复杂度(super_easy/easy/medium/hard/super_hard五个等级),然后自动路由到配置的最经济且能胜任的模型。部署方式灵活:可作为本地服务运行(默认端口4001),也可配置为macOS后台服务。

配置要点

  • 模型池配置:为每个复杂度等级指定不同厂商的模型,如简单任务用GPT-4o-mini/Claude Haiku,复杂任务用o3/Claude Opus
  • 分类器选择:支持本地Ollama(免费,需3B参数模型)、云端API(Anthropic Haiku/OpenAI GPT-4o-mini等),或Google Gemini/Kimi
  • OpenClaw集成:通过--openclaw标志启用兼容模式,实现与Claude Code等工具的无缝对接

显著优点

1. 成本优化效果显著:简单问候用Haiku($0.25/M tokens)替代Opus($15/M tokens),理论成本降低98%
2. 多厂商统一接口:支持Anthropic、OpenAI、Google Gemini、Kimi/Moonshot、Ollama本地模型,OpenAI兼容API格式

3. 零代码侵入:作为代理层部署,无需修改现有应用代码

4. 智能分类可定制:通过编辑ROUTES.md可调整分类规则,适应特定业务场景

5. 开源透明:纯Python实现,配置灵活,支持本地分类保障隐私

潜在缺点与局限性

1. 额外延迟开销:每次请求需先经过分类器判断,增加100-500ms延迟(本地模型)或网络RTT(云端分类)
2. 分类误判风险:简单任务若被误判为复杂任务会导致成本浪费,反之则可能影响输出质量

3. 运维复杂度:需要维护额外的服务组件(Python环境、依赖、可能的Ollama),增加系统故障点

4. 成本控制盲区:路由后的实际成本不透明,依赖日志追溯,难以实时预算管控

5. 本地资源占用:使用本地分类时需常驻3B参数模型,约占用2-4GB内存

6. T2来源风险:个人开发者项目,长期维护承诺不确定

适合人群

  • 高频API调用用户:日均消耗>$10的企业或开发者,成本优化收益可覆盖运维开销
  • 多模型策略团队:需要对比不同模型效果,或针对任务类型精细化选择模型的技术团队
  • 隐私敏感场景:偏好本地分类器处理请求,不愿将原始数据发送到第三方分类服务
  • OpenClaw/Claude Code用户:官方推荐配套方案,可实现智能模型切换

常规风险

| 风险类型 | 说明 | 缓释措施 |
|---------|------|---------|
| 服务可用性 | 路由层成为单点故障,分类器故障会导致全部请求失败 | 部署健康检查,准备直连降级方案 |
| 分类准确性 | 边缘案例可能持续误分类,需持续调优`ROUTES.md` | 建立分类质量监控,定期抽样审计 |
| API密钥安全 | 配置文件需存储多厂商API Key | 使用环境变量注入,禁止硬编码,定期轮换 |
| 供应商锁定 | 过度依赖特定低价模型,厂商调价后优势丧失 | 保持配置灵活性,定期评估替代方案 |
| 合规风险 | 数据流经路由层,可能涉及跨境传输 | 本地分类+本地模型部署,满足数据驻留要求 |

llmrouter 内容

手动下载zip · 3.9 kB
SKILL.mdtext/markdown
请选择文件