核心用法
OG-OpenClawGuard 是 OpenClaw 平台的插件,通过拦截 tool_result_persist 事件,对 AI Agent 读取的外部内容(邮件、网页、文档)进行分块检测。系统将内容分割为 4000 字符的区块(200 字符重叠),使用 OG-Text 模型逐块分析是否存在隐藏的恶意指令,最终聚合判定是否阻断。
用户可通过 /og_status 查看检测统计,/og_report 查阅历史拦截记录,/og_feedback 反馈误报或漏报。支持配置 blockOnRisk 开启仅监控模式,或调整分块大小、超时时间等参数。
显著优点
- 检测精度高:官方声称英文 F1 达 87.1%,多语言达 97.3%,有 arXiv 论文支撑
- 架构设计合理:流式分块处理兼顾长文本完整性与计算效率
- 可观测性强:提供完整的日志追踪、实时告警、定期报告能力
- 反馈闭环:内置反馈机制持续优化模型效果
- 零侵入集成:通过事件钩子实现,无需修改 Agent 核心代码
潜在缺点与局限性
- 性能开销:LLM 逐块分析引入显著延迟(默认 60s 超时),高并发场景可能瓶颈
- 依赖外部模型:检测质量绑定 OpenGuardrails 模型更新,存在供应链风险
- 分块边缘效应:恶意指令可能被分割在区块边界导致漏检
- 误报成本:安全文档、渗透测试材料等易被误判,影响业务流畅性
- 闭源黑盒:核心检测模型未开源,难以审计内部决策逻辑
适合人群
- 部署 AI Agent 处理不可信外部内容的企业安全团队
- 金融、医疗、法律等对数据泄露敏感的行业
- 已使用 OpenClaw 网关架构的技术团队
常规风险
- 可用性风险:严格阻断策略可能导致正常业务流程中断
- 检测逃逸:对抗性攻击者可能针对分块逻辑设计绕过方案
- 供应链安全:npm 包及模型服务更新需严格管控
- 隐私合规:敏感内容需上传至外部检测服务,存在数据跨境风险