使用说明

核心用法

OG-OpenClawGuard 是 OpenClaw 平台的插件，通过拦截 tool_result_persist 事件，对 AI Agent 读取的外部内容（邮件、网页、文档）进行分块检测。系统将内容分割为 4000 字符的区块（200 字符重叠），使用 OG-Text 模型逐块分析是否存在隐藏的恶意指令，最终聚合判定是否阻断。

用户可通过 /og_status 查看检测统计，/og_report 查阅历史拦截记录，/og_feedback 反馈误报或漏报。支持配置 blockOnRisk 开启仅监控模式，或调整分块大小、超时时间等参数。

显著优点

检测精度高：官方声称英文 F1 达 87.1%，多语言达 97.3%，有 arXiv 论文支撑
架构设计合理：流式分块处理兼顾长文本完整性与计算效率
可观测性强：提供完整的日志追踪、实时告警、定期报告能力
反馈闭环：内置反馈机制持续优化模型效果
零侵入集成：通过事件钩子实现，无需修改 Agent 核心代码

潜在缺点与局限性

性能开销：LLM 逐块分析引入显著延迟（默认 60s 超时），高并发场景可能瓶颈
依赖外部模型：检测质量绑定 OpenGuardrails 模型更新，存在供应链风险
分块边缘效应：恶意指令可能被分割在区块边界导致漏检
误报成本：安全文档、渗透测试材料等易被误判，影响业务流畅性
闭源黑盒：核心检测模型未开源，难以审计内部决策逻辑

适合人群

部署 AI Agent 处理不可信外部内容的企业安全团队
金融、医疗、法律等对数据泄露敏感的行业
已使用 OpenClaw 网关架构的技术团队

常规风险

可用性风险：严格阻断策略可能导致正常业务流程中断
检测逃逸：对抗性攻击者可能针对分块逻辑设计绕过方案
供应链安全：npm 包及模型服务更新需严格管控
隐私合规：敏感内容需上传至外部检测服务，存在数据跨境风险

ai-security prompt-injection content-filtering openclaw-plugin llm-guardrails

OpenGuardrails 内容

暂无文件树

手动下载zip · 117.5 kB

contentapplication/octet-stream

请选择文件