核心用法
OpenGuardrails 是 OpenClaw 平台的插件,专用于检测和阻断间接提示注入攻击。它通过 Hook tool_result_persist 事件,对 AI Agent 读取的外部长内容(邮件、网页、文档等)进行实时扫描。
处理流程:内容被分割为 4000 字符的块(200 字符重叠)→ 使用 OG-Text 模型逐块分析 → 聚合判定 → 阻断或放行。提供 /og_status、/og_report、/og_feedback 三个管理命令。
显著优点
1. 检测性能领先:英文 F1 达 87.1%,多语言高达 97.3%,属业界 SOTA 水平
2. 零侵入部署:以插件形式工作,无需修改 Agent 核心逻辑
3. 灵活配置:支持阻断模式与仅日志模式,可调整分块大小和超时时间
4. 反馈闭环:内置误报/漏报反馈机制,持续优化模型
5. 实时监控:提供日志追踪和定时报告功能
潜在局限
- 延迟开销:LLM 逐块分析可能增加 100-500ms 响应延迟(取决于内容长度)
- 成本因素:每次检测消耗 LLM Token,高频场景需评估成本
- 边界情况:极端混淆的注入可能逃逸检测(F1 未达 100%)
- 依赖外部服务:OG-Text 模型依赖 OpenGuardrails 云端或本地部署
适合人群
- 处理不可信外部内容的 AI Agent(邮件助手、网页爬虫、文档分析器)
- 金融、医疗、企业级 RAG 系统等对安全合规要求高的场景
- 已使用 OpenClaw 网关框架的开发者
常规风险
- 误阻断风险:正常安全文档可能被误判,建议初期启用 log-only 模式调优
- 单点依赖:若 OpenGuardrails 服务不可用,检测功能失效
- 对抗性绕过:攻击者可能针对分块策略设计跨块注入攻击
- 隐私考量:内容需上传至检测服务,敏感数据需确认数据处理协议