OpenGuardrails

🔒 AI Agent 的隐形护盾,精准拦截提示词注入

AI Security榜 #1

基于 OpenGuardrails SOTA 检测模型,实时识别并阻断隐藏在长文本中的提示词注入攻击,保护 AI Agent 安全

收藏
8.9k
安装
2.4k
版本
2.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

OG-OpenClawGuard 是 OpenClaw 平台的插件,通过拦截 tool_result_persist 事件,对 AI Agent 读取的外部内容(邮件、网页、文档)进行分块检测。系统将内容分割为 4000 字符的区块(200 字符重叠),使用 OG-Text 模型逐块分析是否存在隐藏的恶意指令,最终聚合判定是否阻断。

用户可通过 /og_status 查看检测统计,/og_report 查阅历史拦截记录,/og_feedback 反馈误报或漏报。支持配置 blockOnRisk 开启仅监控模式,或调整分块大小、超时时间等参数。

显著优点

  • 检测精度高:官方声称英文 F1 达 87.1%,多语言达 97.3%,有 arXiv 论文支撑
  • 架构设计合理:流式分块处理兼顾长文本完整性与计算效率
  • 可观测性强:提供完整的日志追踪、实时告警、定期报告能力
  • 反馈闭环:内置反馈机制持续优化模型效果
  • 零侵入集成:通过事件钩子实现,无需修改 Agent 核心代码

潜在缺点与局限性

  • 性能开销:LLM 逐块分析引入显著延迟(默认 60s 超时),高并发场景可能瓶颈
  • 依赖外部模型:检测质量绑定 OpenGuardrails 模型更新,存在供应链风险
  • 分块边缘效应:恶意指令可能被分割在区块边界导致漏检
  • 误报成本:安全文档、渗透测试材料等易被误判,影响业务流畅性
  • 闭源黑盒:核心检测模型未开源,难以审计内部决策逻辑

适合人群

  • 部署 AI Agent 处理不可信外部内容的企业安全团队
  • 金融、医疗、法律等对数据泄露敏感的行业
  • 已使用 OpenClaw 网关架构的技术团队

常规风险

  • 可用性风险:严格阻断策略可能导致正常业务流程中断
  • 检测逃逸:对抗性攻击者可能针对分块逻辑设计绕过方案
  • 供应链安全:npm 包及模型服务更新需严格管控
  • 隐私合规:敏感内容需上传至外部检测服务,存在数据跨境风险

OpenGuardrails 内容

暂无文件树

手动下载zip · 117.5 kB
contentapplication/octet-stream
请选择文件