使用说明

核心用法

LLM Supervisor 是一个智能的模型调度中间件，专为解决云LLM服务（Anthropic、OpenAI）的速率限制和过载问题而设计。当检测到云端服务异常时，它会立即通知用户并提供本地Ollama模型的无缝切换方案。用户可通过 /llm status 实时查看当前运行状态，使用 /llm switch local 或 /llm switch cloud 手动切换模式。对于代码生成等高风险任务，系统强制要求用户显式确认（回复"yes"），而简单查询（聊天、摘要）在用户历史授权后可自动切换。

显著优点

优雅降级机制：不同于静默失败或无限重试，该技能将服务中断转化为可控的用户决策点，显著提升开发体验。安全优先设计：通过 CODE_INTENTS 白名单精确识别需确认的任务类型，避免本地模型在关键代码场景下的未经审核输出。完全本地化隐私：所有本地模型通信仅限于 127.0.0.1:11434，零数据外传风险。状态透明可控：会话级状态追踪（currentProvider、lastRateLimitAt、localConfirmedForCode）让用户始终掌握系统行为。零依赖轻量化：仅依赖平台标准 SDK，无第三方运行时依赖，部署简单可靠。

潜在缺点与局限性

环境依赖门槛：必须预先安装并运行 Ollama 服务，对新手用户存在配置成本。代码任务中断：强制确认机制虽保障安全，但在高频代码生成场景下可能打断工作流。模型能力落差：本地 7B 参数模型（默认 qwen2.5:7b）与云端大模型在复杂推理任务上存在性能差距。会话状态易失：状态数据仅存于内存，会话重启后重置为云端模式，需重新确认本地代码授权。单服务架构：仅支持 Ollama 作为本地后端，未兼容 llama.cpp、vLLM 等替代方案。

适合的目标群体

混合云本开发团队：需要平衡云端API成本与本地隐私合规的企业开发者。速率限制敏感用户：频繁触发云服务商配额上限的高频API调用者。代码安全审慎者：对AI生成代码持保守态度、坚持人工审查的安全意识强烈用户。离线/内网环境工作者：网络不稳定或需完全离线开发的特殊场景用户。AI应用原型开发者：需要快速验证多模型行为差异的产品经理和技术负责人。

使用风险

性能波动风险：本地模型推理速度显著低于云端API，长文本生成可能出现明显延迟。模型一致性风险：同一提示词在云/本地模型间可能产生语义差异输出，需人工校验关键结果。服务可用性风险：Ollama 进程崩溃或端口冲突将导致本地回退机制失效。确认疲劳风险：高频代码生成场景下重复确认可能降低用户警觉性，形成"习惯性点击"。配置漂移风险：默认模型配置与实际安装的Ollama模型不匹配时可能引发调用失败。

安全解读

核心功能

LLM Supervisor 是一款面向开发者的智能 LLM 服务管理工具，专为解决云服务商（Anthropic、OpenAI 等）速率限制和过载问题而设计。其核心能力包括：

实时错误捕获：通过 SDK Hook 机制拦截云 LLM 的 429/503 等速率限制和过载错误
优雅降级策略：遇限不静默失败、不无限重试，立即通知用户并提供本地回退选项
人机协作确认：代码生成任务必须经用户明确确认（yes 或自定义确认短语）方可切换至本地模型，防止弱模型未经同意执行关键任务
会话状态管理：自动追踪当前提供商（cloud/local）、最近一次限流时间戳、代码任务授权状态，会话重启后恢复云端优先

显著优点

1. 开发连续性保障：避免因云服务商限流导致的工作流中断，特别适合高频 API 调用场景（批量处理、自动化脚本）
2. 安全性设计突出：代码任务强制确认机制填补"自动切换+本地弱模型"的安全盲区，符合安全最佳实践
3. 零外部依赖：仅使用 @openclaw/sdk 类型定义，无第三方运行时库，供应链攻击面极小
4. 网络隔离：Ollama 通信严格限制于 127.0.0.1:11434 本地回环，无数据外泄风险
5. 透明可控：提供 /llm status、/llm switch local/cloud 等完整 CLI 接口，用户始终掌握运行状态

潜在局限

本地算力依赖：回退至 Ollama 需本地 GPU/CPU 资源，qwen2.5:7b 等 7B 模型在复杂代码任务上能力弱于云端大模型
Ollama 前置配置：用户需预装 Ollama 并拉取模型，初次使用有环境准备成本
确认流程摩擦：高频代码任务场景下，每次限流都需手动确认可能降低效率（但此为安全权衡的合理代价）
仅限单一本地后端：当前仅支持 Ollama，未扩展至 llama.cpp、vLLM 等其他本地推理框架

适合人群

高频 API 用户：日均调用量接近或触及云服务商限额的开发者
稳定性敏感场景：自动化 CI/CD 流水线、批量化代码生成任务
隐私合规要求：部分代码需完全本地处理、禁止上传云端的企业环境
成本优化需求：希望在限流时无缝切换至"已投入的"本地算力资源，而非被迫等待或升级付费档位

常规风险

| 风险维度 | 说明 |

|---------|------|

| 模型能力降级 | 本地 7B 模型可能生成低质量代码，需人工复核 |

| 本地服务可用性 | Ollama 未启动或模型未下载时回退失败 |

| 状态误授权 | 若用户曾确认代码任务，后续同会话内简单查询也可能被误判为授权，虽设计已区分 `CODE_INTENTS` 但仍建议留意 |

| 会话重启重置 | 限流后的临时授权不持久化，重启后需重新确认 |

技术实现亮点

采用 TypeScript 类型安全编写，通过 beforeTaskExecute Hook 拦截任务意图，结合 SDK 状态管理实现轻量级状态机。代码结构清晰，无危险函数调用、无硬编码密钥，静态分析得分 92/100。

development-engineering ai-ml backend automation devops

llm-supervisor 内容

commands文件夹

dist文件夹

commands文件夹

hooks文件夹

types文件夹

@openclaw文件夹

手动下载zip · 10.8 kB

llm.tstext/plain

请选择文件