使用说明

核心用法

OpenGuardrails 是面向 OpenClaw AI 代理的运行时安全插件，采用本地优先架构，在工具调用前后实时拦截威胁。核心机制通过 before_tool_call、after_tool_call 和 tool_result_persist 事件钩子，对敏感文件读取、网络外联、命令执行等操作进行实时分类与风险评估。

安装与激活：通过 npm (@openguardrails/openclaw-security) 或源码安装，安装时零网络调用。基础防护（命令注入拦截、内容注入脱敏、读取-外联模式阻断）无需注册即可本地运行；注册后启用云端行为评估，发送的仅为脱敏后的工具元数据（敏感值替换为 <EMAIL>、<SECRET> 等占位符），原始内容永不离开本地。

AI 安全网关：内置免费本地 HTTP 代理，在流量到达 LLM 提供商（Anthropic/OpenAI/Gemini 等）前自动脱敏 PII、银行卡、API 密钥等敏感数据，响应返回时原位还原，实现端到端隐私保护。

显著优点

1. 完全开源可审计：Apache 2.0 协议，核心文件（agent/sanitizer.ts、agent/content-injection-scanner.ts）可直接审查，无黑盒逻辑。
2. 本地优先架构：关键防护（shell 转义检测、7 类提示注入脱敏、敏感文件读取后外联阻断）纯本地运行，无需联网。
3. 透明隐私设计：敏感数据在本地替换为占位符后才可能涉及云端；注册仅发送 {name, description}，无机器标识或文件路径。
4. 故障开放（Fail-open）：云端超时或不可达时不阻断工作流。
5. 免费网关：本地 AI 安全网关零依赖、零注册、无使用限制。

潜在缺点与局限性

1. 检测覆盖依赖规则：基于正则和启发式模式，对新型攻击变体可能存在滞后；作者明确说明检测引擎无 LLM 训练需求，也意味着无语义理解能力。
2. 云端评估为可选但存在数据混淆边界：虽然声称"仅发送脱敏元数据"，但工具名称、参数键、调用时序等行为信号仍可能泄露业务逻辑特征，高隐私场景需完全禁用注册。
3. 功能耦合 OpenClaw 生态：作为 OpenClaw 插件，不支持其他 Agent 框架直接复用（需移植事件钩子机制）。
4. 商业功能限制：免费配额 30,000 次检测/月，超出需订阅（Starter $19/mo 起）。

适合人群

使用 OpenClaw 构建 AI 代理的开发者与团队
需要满足数据合规要求（PII 不出境）的企业场景
安全敏感型用户：愿意审计代码、偏好本地优先架构
希望快速部署提示注入/命令注入基础防护的中小团队

常规风险

1. 过度依赖风险：规则引擎可能产生误报（误拦截合法工具调用）或漏报（绕过检测的注入变体），建议结合输出审查与人工复核。
2. 供应链风险：npm 安装路径存在依赖混淆可能，建议优先源码安装并锁定版本。
3. 凭证管理风险：API 密钥存储于本地 JSON 文件，多用户共享机器时需确保文件权限正确（~/.openclaw/credentials/openguardrails/）。
4. 网关配置风险：若代理直接调用原始 LLM API 端点而非网关，脱敏机制失效，需强制网络层路由至 127.0.0.1:8900。

安全解读

核心用法

OpenGuardrails 是专为 OpenClaw AI Agent 设计的运行时安全插件，通过事件钩子（before_tool_call、after_tool_call、tool_result_persist）实现实时威胁防护。安装后无需立即联网即可使用本地保护：

1. 安装插件：openclaw plugins install @openguardrails/openclaw-security（零网络调用）
2. 可选注册：运行 /og_activate 获取 API Key，启用云端行为评估
3. 验证状态：/og_status 查看激活状态与配置

插件自动执行三类保护：

本地快速拦截：敏感文件读取后网络外联、Shell 转义字符（$()、``、;、&&、|）、多凭证文件访问
内容注入红：扫描文件/网页内容中的 7 类注入模式，匹配即替换为 __REDACTED_BY_OPENGUARDRAILS_*__
云端行为评估：对边界行为模式（意图不匹配、异常工具序列）进行风险评估

AI Security Gateway（免费附赠）：本地 HTTP 代理运行于 127.0.0.1:8900，拦截 LLM API 调用，将邮箱、信用卡、API Key 等 PII 替换为占位符（如 __email_1__）后再发往供应商，响应后自动还原，实现"供应商零感知敏感数据"。

显著优点

1. 本地优先架构：核心检测完全离线，云连接仅用于边界案例且可完全禁用
2. 零信任透明：Apache 2.0 开源，关键文件（sanitizer.ts、content-injection-scanner.ts）可直接审计；安装时零网络调用，激活后仅发送脱敏元数据
3. Fail-open 设计：云端超时或不可达时工具调用正常放行，不中断工作流
4. 双重脱敏机制：插件层 + 网关层双重 PII 保护，占位符映射仅存于请求周期
5. 即时验证：激活后自动发送含隐藏注入的测试邮件，用户可立即验证检测有效性

潜在局限

1. 生态绑定：专为 OpenClaw Agent 设计，其他 Agent 框架需适配
2. 检测边界：基于规则与正则的模式匹配，对新型注入变体可能存在滞后；高难度语义攻击需依赖云端评估
3. 云评估配额：免费版 30,000 次/月检测，高频率场景需付费升级
4. 配置门槛：AI Security Gateway 需手动修改 Agent API 端点，非开箱即用

适合人群

使用 OpenClaw Agent 处理敏感数据（代码、凭证、用户 PII）的开发者与企业
需满足合规要求（GDPR、数据本地化）的团队
对 AI Agent 安全风险（提示注入、数据外泄、命令注入）有认知的技术决策者
倾向开源可审计方案而非黑盒安全产品的用户

常规风险

1. 过度依赖本地保护：关键业务场景建议完成注册以启用云端行为评估，弥补规则检测盲区
2. 网关配置错误：AI Security Gateway 若配置不当（如直接调用供应商 API 绕过网关）将导致脱敏失效
3. 凭证管理：API Key 存储于 ~/.openclaw/credentials/，多用户共享机器需注意权限隔离
4. 测试邮件误判：验证邮件可能被企业邮箱过滤，建议检查垃圾邮件文件夹
5. 版本滞后：从 npm 安装可能非最新 commit，高安全要求场景建议源码安装并锁定 commit hash

ai-security prompt-injection data-exfiltration pii-protection agent-guardrails local-first open-source credential-theft command-injection

OpenGuardrails 内容

手动下载zip · 8.5 kB

SKILL.mdtext/markdown

请选择文件