OpenGuardrails

🔒 AI Agent 提示注入防护盾牌

安全工具榜 #4

基于 SOTA 模型的间接提示注入检测插件,87.1%-97.3% F1 得分,自动拦截邮件、网页、文档中的隐藏恶意指令,保护 AI Agent 安全。

收藏
9.7k
安装
2.4k
版本
3.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

OpenGuardrails 是 OpenClaw 平台的插件,专用于检测和阻断间接提示注入攻击。它通过 Hook tool_result_persist 事件,对 AI Agent 读取的外部长内容(邮件、网页、文档等)进行实时扫描。

处理流程:内容被分割为 4000 字符的块(200 字符重叠)→ 使用 OG-Text 模型逐块分析 → 聚合判定 → 阻断或放行。提供 /og_status/og_report/og_feedback 三个管理命令。

显著优点

1. 检测性能领先:英文 F1 达 87.1%,多语言高达 97.3%,属业界 SOTA 水平
2. 零侵入部署:以插件形式工作,无需修改 Agent 核心逻辑

3. 灵活配置:支持阻断模式与仅日志模式,可调整分块大小和超时时间

4. 反馈闭环:内置误报/漏报反馈机制,持续优化模型

5. 实时监控:提供日志追踪和定时报告功能

潜在局限

  • 延迟开销:LLM 逐块分析可能增加 100-500ms 响应延迟(取决于内容长度)
  • 成本因素:每次检测消耗 LLM Token,高频场景需评估成本
  • 边界情况:极端混淆的注入可能逃逸检测(F1 未达 100%)
  • 依赖外部服务:OG-Text 模型依赖 OpenGuardrails 云端或本地部署

适合人群

  • 处理不可信外部内容的 AI Agent(邮件助手、网页爬虫、文档分析器)
  • 金融、医疗、企业级 RAG 系统等对安全合规要求高的场景
  • 已使用 OpenClaw 网关框架的开发者

常规风险

  • 误阻断风险:正常安全文档可能被误判,建议初期启用 log-only 模式调优
  • 单点依赖:若 OpenGuardrails 服务不可用,检测功能失效
  • 对抗性绕过:攻击者可能针对分块策略设计跨块注入攻击
  • 隐私考量:内容需上传至检测服务,敏感数据需确认数据处理协议

OpenGuardrails 内容

agent文件夹
memory文件夹
手动下载zip · 117.4 kB
config.tstext/plain
请选择文件