核心用法
OpenGuardrails for OpenClaw 是一款面向 AI 代理生态的间接提示注入防护插件,通过拦截并分析外部长文本内容(邮件、网页、文档)中的隐藏恶意指令,防止攻击者劫持代理行为。插件通过 OpenClaw 的 tool_result_persist 事件钩子接入,将内容分块后经 OG-Text 模型逐块检测,若发现注入则阻断或告警。
典型使用场景:
- 企业 AI 客服读取用户上传邮件时过滤「系统覆盖指令」
- 自动化代理爬取网页时识别隐藏
SYSTEM ALERT陷阱 - 文档处理工作流中拦截含凭证收集指令的 PDF/Word 文件
主要功能:
1. 实时检测:4000 字符分块 + 200 字符重叠滑动窗口,兼顾效率与连续性
2. 三档命令:/og_status 查看统计、/og_report 审查威胁、/og_feedback 反馈误报
3. 灵活模式:支持阻断模式(blockOnRisk: true)或仅日志监控模式
显著优点
- 检测性能优异:官方宣称英文 F1 达 87.1%、多语言 97.3%,在同类专用模型中处于第一梯队
- 零侵入集成:纯插件架构,无需修改代理核心代码,通过事件钩子透明接入
- 可解释输出:检测报告包含「可疑内容片段」与「检测原因」,便于人工复核
- 社区反馈闭环:内置
/og_feedback机制持续优化模型,降低误报/漏报
潜在缺点与局限性
- 延迟开销:每 4000 字符需一次 LLM 推理调用,高并发场景下 60 秒超时可能成为瓶颈
- 模型黑箱依赖:OG-Text 模型未开源,实际检测逻辑与训练数据不透明,存在「供应商锁定」风险
- 分块边界盲区:200 字符重叠虽缓解截断问题,但超长注入指令仍可能跨边界逃逸
- 仅支持 OpenClaw 生态:与特定网关架构深度绑定,迁移成本较高
适合人群
- 企业 AI 安全团队:需为内部 AI Agent 工作流快速部署提示注入防线
- OpenClaw 重度用户:已基于 OpenClaw 构建自动化代理,寻求原生安全增强
- 合规敏感行业:金融、医疗、政务领域对 AI 输出可控性有强监管要求
常规风险
1. 误报导致业务中断:过度敏感可能阻断正常含「系统」「执行」等关键词的技术文档
2. 检测绕过:攻击者可通过编码混淆、多语言混合、图像嵌入文本等对抗样本绕过文本检测
3. 供应链风险:插件依赖 npm 分发与外部模型 API,存在恶意更新或服务中断可能
4. 隐私泄露:长文本分块上传至 OpenGuardrails 云端分析,敏感数据可能离开本地环境