OpenGuardrails

🔒 AI 代理的提示注入防火墙

为 OpenClaw AI 代理提供间接提示注入攻击防护,基于 OpenGuardrails SOTA 模型实现 87.1%-97.3% F1 检测精度,自动阻断恶意指令

收藏
8k
安装
2.4k
版本
3.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

OpenGuardrails for OpenClaw 是一款面向 AI 代理生态的间接提示注入防护插件,通过拦截并分析外部长文本内容(邮件、网页、文档)中的隐藏恶意指令,防止攻击者劫持代理行为。插件通过 OpenClaw 的 tool_result_persist 事件钩子接入,将内容分块后经 OG-Text 模型逐块检测,若发现注入则阻断或告警。

典型使用场景

  • 企业 AI 客服读取用户上传邮件时过滤「系统覆盖指令」
  • 自动化代理爬取网页时识别隐藏 SYSTEM ALERT 陷阱
  • 文档处理工作流中拦截含凭证收集指令的 PDF/Word 文件

主要功能
1. 实时检测:4000 字符分块 + 200 字符重叠滑动窗口,兼顾效率与连续性

2. 三档命令/og_status 查看统计、/og_report 审查威胁、/og_feedback 反馈误报

3. 灵活模式:支持阻断模式(blockOnRisk: true)或仅日志监控模式

显著优点

  • 检测性能优异:官方宣称英文 F1 达 87.1%、多语言 97.3%,在同类专用模型中处于第一梯队
  • 零侵入集成:纯插件架构,无需修改代理核心代码,通过事件钩子透明接入
  • 可解释输出:检测报告包含「可疑内容片段」与「检测原因」,便于人工复核
  • 社区反馈闭环:内置 /og_feedback 机制持续优化模型,降低误报/漏报

潜在缺点与局限性

  • 延迟开销:每 4000 字符需一次 LLM 推理调用,高并发场景下 60 秒超时可能成为瓶颈
  • 模型黑箱依赖:OG-Text 模型未开源,实际检测逻辑与训练数据不透明,存在「供应商锁定」风险
  • 分块边界盲区:200 字符重叠虽缓解截断问题,但超长注入指令仍可能跨边界逃逸
  • 仅支持 OpenClaw 生态:与特定网关架构深度绑定,迁移成本较高

适合人群

  • 企业 AI 安全团队:需为内部 AI Agent 工作流快速部署提示注入防线
  • OpenClaw 重度用户:已基于 OpenClaw 构建自动化代理,寻求原生安全增强
  • 合规敏感行业:金融、医疗、政务领域对 AI 输出可控性有强监管要求

常规风险

1. 误报导致业务中断:过度敏感可能阻断正常含「系统」「执行」等关键词的技术文档
2. 检测绕过:攻击者可通过编码混淆、多语言混合、图像嵌入文本等对抗样本绕过文本检测

3. 供应链风险:插件依赖 npm 分发与外部模型 API,存在恶意更新或服务中断可能

4. 隐私泄露:长文本分块上传至 OpenGuardrails 云端分析,敏感数据可能离开本地环境

OpenGuardrails 内容

暂无文件树

手动下载zip · 117.5 kB
contentapplication/octet-stream
请选择文件