核心用法
OpenGuardrails 是面向 OpenClaw AI 代理的运行时安全插件,采用本地优先架构,在工具调用前后实时拦截威胁。核心机制通过 before_tool_call、after_tool_call 和 tool_result_persist 事件钩子,对敏感文件读取、网络外联、命令执行等操作进行实时分类与风险评估。
安装与激活:通过 npm (@openguardrails/openclaw-security) 或源码安装,安装时零网络调用。基础防护(命令注入拦截、内容注入脱敏、读取-外联模式阻断)无需注册即可本地运行;注册后启用云端行为评估,发送的仅为脱敏后的工具元数据(敏感值替换为 <EMAIL>、<SECRET> 等占位符),原始内容永不离开本地。
AI 安全网关:内置免费本地 HTTP 代理,在流量到达 LLM 提供商(Anthropic/OpenAI/Gemini 等)前自动脱敏 PII、银行卡、API 密钥等敏感数据,响应返回时原位还原,实现端到端隐私保护。
显著优点
1. 完全开源可审计:Apache 2.0 协议,核心文件(agent/sanitizer.ts、agent/content-injection-scanner.ts)可直接审查,无黑盒逻辑。
2. 本地优先架构:关键防护(shell 转义检测、7 类提示注入脱敏、敏感文件读取后外联阻断)纯本地运行,无需联网。
3. 透明隐私设计:敏感数据在本地替换为占位符后才可能涉及云端;注册仅发送 {name, description},无机器标识或文件路径。
4. 故障开放(Fail-open):云端超时或不可达时不阻断工作流。
5. 免费网关:本地 AI 安全网关零依赖、零注册、无使用限制。
潜在缺点与局限性
1. 检测覆盖依赖规则:基于正则和启发式模式,对新型攻击变体可能存在滞后;作者明确说明检测引擎无 LLM 训练需求,也意味着无语义理解能力。
2. 云端评估为可选但存在数据混淆边界:虽然声称"仅发送脱敏元数据",但工具名称、参数键、调用时序等行为信号仍可能泄露业务逻辑特征,高隐私场景需完全禁用注册。
3. 功能耦合 OpenClaw 生态:作为 OpenClaw 插件,不支持其他 Agent 框架直接复用(需移植事件钩子机制)。
4. 商业功能限制:免费配额 30,000 次检测/月,超出需订阅(Starter $19/mo 起)。
适合人群
- 使用 OpenClaw 构建 AI 代理的开发者与团队
- 需要满足数据合规要求(PII 不出境)的企业场景
- 安全敏感型用户:愿意审计代码、偏好本地优先架构
- 希望快速部署提示注入/命令注入基础防护的中小团队
常规风险
1. 过度依赖风险:规则引擎可能产生误报(误拦截合法工具调用)或漏报(绕过检测的注入变体),建议结合输出审查与人工复核。
2. 供应链风险:npm 安装路径存在依赖混淆可能,建议优先源码安装并锁定版本。
3. 凭证管理风险:API 密钥存储于本地 JSON 文件,多用户共享机器时需确保文件权限正确(~/.openclaw/credentials/openguardrails/)。
4. 网关配置风险:若代理直接调用原始 LLM API 端点而非网关,脱敏机制失效,需强制网络层路由至 127.0.0.1:8900。