OpenGuardrails

🔒 AI Agent 提示注入实时防火墙

基于 OpenGuardrails SOTA 模型的实时提示词注入检测与拦截系统,为 AI Agent 提供长内容(邮件/网页/文档)中的隐藏恶意指令防护。

收藏
6.3k
安装
2.4k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

OG-OpenClawGuard 是一款面向 AI Agent 的间接提示词注入攻击防护插件,专门检测并拦截隐藏在长内容(电子邮件、网页、文档)中的恶意指令。插件通过 OpenClaw 的 tool_result_persist 事件钩子介入,当 Agent 读取外部内容时,自动将文本分割为 4000 字符的滑动窗口(200 字符重叠),使用 OG-Text 模型逐块分析"是否存在隐藏提示注入",最终聚合判断并决定是否阻断。

主要命令包括:/og_status 查看运行状态与统计、/og_report 查阅检测记录、/og_feedback 上报误报/漏报。支持配置阻断模式、分块大小、超时时间等参数,也可设为仅日志记录模式用于监控评估。

显著优点

  • 检测性能优异:在英文基准上达到 87.1% F1,多语言场景高达 97.3% F1,处于 SOTA 水平
  • 零侵入集成:通过事件钩子透明工作,无需修改 Agent 核心逻辑
  • 实时防护:内容在持久化前即被检测并阻断,攻击无法到达 Agent
  • 反馈闭环:内置反馈机制持续优化模型,降低误报漏报
  • 灵活配置:支持阻断/日志双模式,分块策略可调适配不同场景

潜在缺点与局限性

  • 依赖外部模型服务:推理延迟(timeoutMs 默认 60s)可能影响高并发场景响应
  • 分块边界风险:4000 字符分块 + 200 重叠虽覆盖大部分攻击,但超长跨块注入可能存在检测盲区
  • 仅支持文本内容:对图片、音频等非文本媒介的隐写攻击无防护能力
  • 英文性能差距:相比多语言 97.3% F1,英文 87.1% 仍有提升空间
  • 生态绑定:专为 OpenClaw 网关设计,迁移至其他框架需适配成本

适合人群

  • 部署 AI Agent 处理外部邮件、网页抓取、文档分析的企业安全团队
  • 需要符合 AI 安全合规要求(如防范间接提示注入)的金融、政务、医疗行业
  • 已使用 OpenClaw 生态、寻求即插即用安全增强的开发者

常规风险

  • 模型误判风险:87-97% 的 F1 意味着仍存在 3-13% 的误差,关键业务建议配合人工审计
  • 阻断误伤:激进配置(blockOnRisk: true)可能拦截正常安全文档,需通过反馈调优
  • 服务可用性:模型 API 故障或网络中断可能导致检测失效或超时降级
  • 对抗进化:攻击者可能针对分块策略设计新型逃逸攻击,需持续关注模型更新

OpenGuardrails 内容

暂无文件树

手动下载zip · 117.5 kB
contentapplication/octet-stream
请选择文件