核心用法
LLM Supervisor 是一款模型调度中间件技能,专为解决大语言模型 API 限流与过载问题设计。其核心机制在于实时监控 OpenClaw 对 Anthropic/OpenAI 云端模型的调用状态,当检测到 rate limit 或过载错误时,自动无缝切换至本地 Ollama 运行的 qwen2.5:7b 模型作为降级方案。
用户可通过三条简洁命令实现手动控制:/llm status 查询当前运行模式;/llm switch cloud 强制切回云端;/llm switch local 主动启用本地模型。这种设计兼顾自动化与人工干预的灵活性。
显著优点
- 业务连续性保障:避免因第三方服务限流导致的工作流中断
- 成本可控:本地模型调用零 API 费用,适合高频或长文本场景
- 隐私增强:敏感数据处理可完全留在本地设备
- 透明可控:手动切换命令赋予用户完全主动权
潜在局限与风险
- 模型能力降级:Qwen2.5 7B 在复杂推理、代码生成质量上显著弱于 Claude/GPT-4 级模型
- 本地算力依赖:需持续运行 Ollama 服务,对笔记本/低配设备有资源占用
- 上下文长度限制:7B 模型的有效上下文通常远低于商业云端模型
- 同步延迟:模型切换可能伴随短暂的响应中断
安全机制
该技能引入关键的安全闸门:所有本地代码生成必须经过显式确认,用户必须完整输入 CONFIRM LOCAL CODE 方可执行。这一设计有效防止了因模型降级导致的低质量或潜在有害代码被自动采纳,体现了"功能降级但安全不降级"的原则。
适合人群
- 频繁遭遇 API 限流的开发者/内容创作者
- 对数据隐私有强要求的本地优先用户
- 需要 7×24 小时稳定 LLM 服务的自动化工作流搭建者
- 愿意接受质量权衡以换取可用性的实用主义者
常规风险提示
- 本地模型可能产生幻觉代码,生产环境使用前务必人工审查
- 建议定期检查 Ollama 服务状态,避免静默故障
- 复杂任务建议主动切回云端,勿依赖自动降级完成关键工作