使用说明

核心用法

OpenGuardrails 是 OpenClaw 平台的插件，专用于检测和阻断间接提示注入攻击。它通过 Hook tool_result_persist 事件，对 AI Agent 读取的外部长内容（邮件、网页、文档等）进行实时扫描。

处理流程：内容被分割为 4000 字符的块（200 字符重叠）→ 使用 OG-Text 模型逐块分析 → 聚合判定 → 阻断或放行。提供 /og_status、/og_report、/og_feedback 三个管理命令。

显著优点

1. 检测性能领先：英文 F1 达 87.1%，多语言高达 97.3%，属业界 SOTA 水平
2. 零侵入部署：以插件形式工作，无需修改 Agent 核心逻辑
3. 灵活配置：支持阻断模式与仅日志模式，可调整分块大小和超时时间
4. 反馈闭环：内置误报/漏报反馈机制，持续优化模型
5. 实时监控：提供日志追踪和定时报告功能

潜在局限

延迟开销：LLM 逐块分析可能增加 100-500ms 响应延迟（取决于内容长度）
成本因素：每次检测消耗 LLM Token，高频场景需评估成本
边界情况：极端混淆的注入可能逃逸检测（F1 未达 100%）
依赖外部服务：OG-Text 模型依赖 OpenGuardrails 云端或本地部署

适合人群

处理不可信外部内容的 AI Agent（邮件助手、网页爬虫、文档分析器）
金融、医疗、企业级 RAG 系统等对安全合规要求高的场景
已使用 OpenClaw 网关框架的开发者

常规风险

误阻断风险：正常安全文档可能被误判，建议初期启用 log-only 模式调优
单点依赖：若 OpenGuardrails 服务不可用，检测功能失效
对抗性绕过：攻击者可能针对分块策略设计跨块注入攻击
隐私考量：内容需上传至检测服务，敏感数据需确认数据处理协议

prompt-injection ai-security content-filtering agent-protection indirect-attack openclaw-plugin

OpenGuardrails 内容

agent文件夹

memory文件夹

手动下载zip · 117.4 kB

config.tstext/plain

请选择文件