openclaw-bastion

🏛️ AI Agent 提示注入防护盾

OpenClaw 官方出品的运行时提示注入防御工具,通过扫描工作空间边界内容检测恶意指令,为 AI Agent 提供本地安全防护。

收藏
19.3k
安装
4.3k
版本
v1.0.2
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心用法

OpenClaw Bastion 是一款专注于 AI Agent 工作空间的运行时提示注入防御工具。其核心定位在于保护输入/输出边界——即 Agent 读取的本地文件、网页内容、API 响应和用户上传文档,而非传统的身份凭证文件监控。

该 Skill 提供四大核心命令::scan 用于扫描文件或目录中的注入模式;check 执行单文件的快速检测;boundaries 分析工作空间的内容边界安全,识别混合可信/不可信内容的 Agent 指令文件;allowlist 管理命令白名单策略。此外,,status 命令可快速评估整体安全态势。工具支持自动检测工作空间路径,无需手动配置。

检测能力覆盖 11 类威胁模式,包括指令覆盖(如 "ignore previous")、系统提示标记(如 <system>>)、HTML/脚本注入、Markdown 数据外泄、危险命令(如 curl | bash)、零宽字符等 Unicode 技巧、同形异义字符替换等。采用上下文感知扫描策略,自动跳过代码块内的模式以避免误报,并基于发现数量和严重程度进行风险评分。

显著优点

零依赖架构是最大亮点——仅使用 Python 标准库,无需 pip 安装,无网络调用,完全本地运行,极大降低了供应链攻击面。跨平台兼容支持 OpenClaw、Claude Code、Cursor 等主流 Agent 工具。检测维度全面,从显式指令覆盖到隐蔽的 Unicode 混淆均有覆盖,且持续更新威胁模式。操作安全性高,隔离、清理等敏感操作均配备自动备份机制,支持策略自定义。开源透明,MIT 许可证,代码可审计。

潜在缺点与局限性

作为 T3 来源的社区项目,品牌背书较弱,企业用户可能需要额外的信任建立过程。功能边界明确限制于文本内容,无法处理二进制文件或网络层检测,非实时系统调用监控。误报控制虽通过代码块跳过等策略优化,但复杂场景下仍需人工复核。社区生态尚处早期,GitHub Stars 和贡献者数量有待积累。Pro 功能(运行时钩子强制策略)需付费版本解锁,免费版依赖用户主动扫描。

适合的目标群体

  • AI Agent 开发者:需要为自研 Agent 集成注入检测能力
  • 安全研究人员:研究提示注入攻击与防御技术
  • 企业安全团队:评估和监控内部 AI 工作空间安全态势
  • 个人高级用户:使用 Claude Code、Cursor 等工具处理不可信来源内容
  • 开源项目维护者:保护 CI/CD 流水线中的 Agent 执行环境

使用风险

性能方面:大规模工作空间全量扫描可能产生 I/O 开销,建议结合 .gitignore 类机制排除无关目录。依赖项:虽无外部依赖,但需确保 Python 3 环境可用,Windows 平台路径处理需验证兼容性。隔离操作风险quarantine 命令会移动文件,虽自动备份但仍建议在版本控制环境下使用。策略配置:自定义 .bastion-policy.json 时,过于宽松的规则可能削弱防护效果。来源可信度:T3 级别意味着需自行承担代码审计责任,关键场景建议结合其他安全工具纵深防御。

安全解读

核心用法

openclaw-bastion 是面向AI Agent生态的专业安全防御工具,专注于运行时输入/输出边界防护——区别于其他仅监控工作区身份文件的方案,Bastion直接扫描Agent读取的本地文件、API响应、网页内容及用户上传文档中的潜在注入攻击。

主要功能模块

| 命令 | 用途 |
|------|------|
| `scan` | 扫描文件/目录,检测10余类注入模式(指令覆盖、系统提示标记、Unicode隐藏、HTML注入等) |
| `check` | 单文件快速检测,适合CI/CD流水线集成 |
| `boundaries` | 分析工作区内容边界安全,识别混合信任内容、可写指令文件的攻击面 |
| `allowlist` | 管理命令白名单策略,生成/展示 `.bastion-policy.json` |
| `status` | 一键查看工作区整体安全态势评分 |

扫描器具备上下文感知能力:自动跳过代码块内的模式(避免误报),支持自排除(跳过Bastion自身技能文件),并提供三级退出码(0=清洁/1=警告/2=严重)。

显著优点

  • 零攻击面设计:纯Python标准库(argparse/json/os/re/pathlib),无pip依赖,无网络调用,完全离线运行
  • 专业检测覆盖:识别指令覆盖、多轮操纵、零宽字符、同形异义字、Base64载荷、外壳注入等高级攻击向量
  • 跨平台兼容:支持OpenClaw、Claude Code、Cursor及任何Agent Skills规范工具
  • 企业级透明:MIT开源协议,1,900行代码完全可审计,CLS-Certify S级安全认证

潜在局限

  • 静态模式匹配:基于正则表达式检测,可能漏过语义等价但形态新颖的注入攻击(如对抗性改写)
  • 无运行时Hook集成:基础版需手动调用,Pro版才提供自动enforce钩子
  • 策略配置门槛.bastion-policy.json需人工维护,复杂组织环境可能产生策略漂移
  • 无深度内容分析:对图像隐写、音频载荷等多模态载体无检测能力

适合人群

  • AI Agent开发者:构建Claude Code/Cursor插件生态的安全基线
  • 企业安全团队:为内部Agent工作区建立供应链攻击防御层
  • 开源社区维护者:保护CI流水线免受恶意PR中的提示词注入
  • 高敏感度场景:金融、医疗、政务领域的Agent应用前置安检

常规风险

  • 误报成本:严格的边界检测可能将合法的多语言内容(如混合Cyrillic/Latin的技术文档)标记为可疑
  • 依赖维护者信誉:当前T2级别(可信个人开发者),虽代码完全开源,但尚未经历大规模生产环境长期验证
  • 功能定位边界:Bastion是检测工具而非沙箱隔离,检测到威胁后仍需人工或上层系统处置
  • 策略配置风险:过于宽松的allowlist可能削弱防护效果,过于严格则影响Agent正常功能调用

总体评估:这是当前Agent生态中架构理念最先进的提示词注入防御方案之一,其"保护I/O边界而非身份文件"的设计思路具有范式意义。纯标准库实现消除了供应链攻击向量,适合作为安全敏感场景的基础防护层。建议与行为监控、沙箱执行形成纵深防御。

openclaw-bastion 内容

scripts文件夹
手动下载zip · 20.1 kB
bastion.pytext/plain
请选择文件