使用说明

核心用法

OpenGuardrails for OpenClaw 是一款面向 AI 代理生态的间接提示注入防护插件，通过拦截并分析外部长文本内容（邮件、网页、文档）中的隐藏恶意指令，防止攻击者劫持代理行为。插件通过 OpenClaw 的 tool_result_persist 事件钩子接入，将内容分块后经 OG-Text 模型逐块检测，若发现注入则阻断或告警。

典型使用场景：

企业 AI 客服读取用户上传邮件时过滤「系统覆盖指令」
自动化代理爬取网页时识别隐藏 SYSTEM ALERT 陷阱
文档处理工作流中拦截含凭证收集指令的 PDF/Word 文件

主要功能：
1. 实时检测：4000 字符分块 + 200 字符重叠滑动窗口，兼顾效率与连续性
2. 三档命令：/og_status 查看统计、/og_report 审查威胁、/og_feedback 反馈误报
3. 灵活模式：支持阻断模式（blockOnRisk: true）或仅日志监控模式

显著优点

检测性能优异：官方宣称英文 F1 达 87.1%、多语言 97.3%，在同类专用模型中处于第一梯队
零侵入集成：纯插件架构，无需修改代理核心代码，通过事件钩子透明接入
可解释输出：检测报告包含「可疑内容片段」与「检测原因」，便于人工复核
社区反馈闭环：内置 /og_feedback 机制持续优化模型，降低误报/漏报

潜在缺点与局限性

延迟开销：每 4000 字符需一次 LLM 推理调用，高并发场景下 60 秒超时可能成为瓶颈
模型黑箱依赖：OG-Text 模型未开源，实际检测逻辑与训练数据不透明，存在「供应商锁定」风险
分块边界盲区：200 字符重叠虽缓解截断问题，但超长注入指令仍可能跨边界逃逸
仅支持 OpenClaw 生态：与特定网关架构深度绑定，迁移成本较高

适合人群

企业 AI 安全团队：需为内部 AI Agent 工作流快速部署提示注入防线
OpenClaw 重度用户：已基于 OpenClaw 构建自动化代理，寻求原生安全增强
合规敏感行业：金融、医疗、政务领域对 AI 输出可控性有强监管要求

常规风险

1. 误报导致业务中断：过度敏感可能阻断正常含「系统」「执行」等关键词的技术文档
2. 检测绕过：攻击者可通过编码混淆、多语言混合、图像嵌入文本等对抗样本绕过文本检测
3. 供应链风险：插件依赖 npm 分发与外部模型 API，存在恶意更新或服务中断可能
4. 隐私泄露：长文本分块上传至 OpenGuardrails 云端分析，敏感数据可能离开本地环境

prompt-injection ai-security openclaw-plugin llm-guardrails content-filtering indirect-prompt-injection enterprise-ai

OpenGuardrails 内容

暂无文件树

手动下载zip · 117.5 kB

contentapplication/octet-stream

请选择文件