使用说明

核心用法

OG-OpenClawGuard 是一款面向 AI Agent 的间接提示词注入攻击防护插件，专门检测并拦截隐藏在长内容（电子邮件、网页、文档）中的恶意指令。插件通过 OpenClaw 的 tool_result_persist 事件钩子介入，当 Agent 读取外部内容时，自动将文本分割为 4000 字符的滑动窗口（200 字符重叠），使用 OG-Text 模型逐块分析"是否存在隐藏提示注入"，最终聚合判断并决定是否阻断。

主要命令包括：/og_status 查看运行状态与统计、/og_report 查阅检测记录、/og_feedback 上报误报/漏报。支持配置阻断模式、分块大小、超时时间等参数，也可设为仅日志记录模式用于监控评估。

显著优点

检测性能优异：在英文基准上达到 87.1% F1，多语言场景高达 97.3% F1，处于 SOTA 水平
零侵入集成：通过事件钩子透明工作，无需修改 Agent 核心逻辑
实时防护：内容在持久化前即被检测并阻断，攻击无法到达 Agent
反馈闭环：内置反馈机制持续优化模型，降低误报漏报
灵活配置：支持阻断/日志双模式，分块策略可调适配不同场景

潜在缺点与局限性

依赖外部模型服务：推理延迟（timeoutMs 默认 60s）可能影响高并发场景响应
分块边界风险：4000 字符分块 + 200 重叠虽覆盖大部分攻击，但超长跨块注入可能存在检测盲区
仅支持文本内容：对图片、音频等非文本媒介的隐写攻击无防护能力
英文性能差距：相比多语言 97.3% F1，英文 87.1% 仍有提升空间
生态绑定：专为 OpenClaw 网关设计，迁移至其他框架需适配成本

适合人群

部署 AI Agent 处理外部邮件、网页抓取、文档分析的企业安全团队
需要符合 AI 安全合规要求（如防范间接提示注入）的金融、政务、医疗行业
已使用 OpenClaw 生态、寻求即插即用安全增强的开发者

常规风险

模型误判风险：87-97% 的 F1 意味着仍存在 3-13% 的误差，关键业务建议配合人工审计
阻断误伤：激进配置（blockOnRisk: true）可能拦截正常安全文档，需通过反馈调优
服务可用性：模型 API 故障或网络中断可能导致检测失效或超时降级
对抗进化：攻击者可能针对分块策略设计新型逃逸攻击，需持续关注模型更新

安全解读

核心用法

OG-OpenClawGuard 是专为 AI Agent 设计的间接提示词注入防御插件，通过 OpenGuardrails 的专用检测模型实时扫描外部内容中的隐藏恶意指令。

工作流程：当 Agent 读取邮件、网页、文档等长内容时，插件自动将内容分割为 4000 字符的滑动窗口（200 字符重叠），逐块调用 OG-Text 模型分析，聚合判断后决定是否拦截。集成方式简洁，仅需监听 tool_result_persist 事件即可生效。

管理命令：提供三条 slash 命令——/og_status 查看检测统计与配置；/og_report 查看近期拦截详情；/og_feedback 上报误报或漏检以优化模型。

显著优点

1. 检测性能领先：英文 F1 达 87.1%，多语言场景更高达 97.3%，显著优于基于规则或启发式的传统方案
2. 长内容友好：分块 + 滑动窗口设计确保超大文档也能完整扫描，避免攻击者将恶意指令隐藏在文档深处
3. 零侵入集成：通过事件钩子工作，无需修改 Agent 核心逻辑或业务代码
4. 灵活配置：支持拦截模式/仅日志模式切换、分块大小自定义、超时控制等
5. 来源可信：OpenGuardrails 为专注 LLM 安全的开源组织，配套学术论文（arXiv:2510.19169）与官方 npm 发布

潜在缺点与局限性

1. 硬性依赖外部 API：核心检测逻辑必须调用 api.openguardrails.com，无法完全离线运行，网络波动或 API 限流将直接影响可用性
2. 数据隐私敏感：用户内容需上传至第三方服务分析，对金融、医疗等强合规场景可能不适用
3. API Key 管理缺陷：当前版本存在硬编码 API Key 风险（RISK-001），虽已标记需修复，但使用者需自行确认版本状态
4. 中文检测未明确验证：虽然多语言 F1 达 97.3%，但公开资料未单独披露中文场景的具体表现
5. 资源消耗：大文件分块分析可能产生较高 token 消耗与延迟（默认 60s 超时）

适合人群

使用 OpenClaw 网关构建 AI Agent 的开发者
需要处理不可信外部内容（客户邮件、网页抓取、用户上传文档）的企业场景
对提示词注入风险有认知、能接受适度数据外传的团队

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 凭证泄露 | 高 | 硬编码 API Key 问题需确认修复状态 |

| 数据外传 | 中 | 内容需发送至 OpenGuardrails API |

| 服务可用性 | 中 | 依赖外部 API 稳定性 |

| 隐私合规 | 中 | 需评估是否符合企业数据出境要求 |

| 误报干扰 | 低 | 安全文档可能被误判，需配合反馈机制调优 |

prompt-injection ai-security content-filter threat-detection agent-protection ml-based-detection openguardrails

OpenGuardrails 内容

agent文件夹

memory文件夹

手动下载zip · 117.5 kB

config.tstext/plain

请选择文件