prompt-injection-guard

🛡️ 零依赖的提示注入防御指南

来自 openclaw/skills 仓库的纯文档型安全防御指南,提供提示注入攻击检测与多层防御策略,零代码执行风险,为 AI 系统提供系统级安全加固能力。

收藏
3k
安装
1.2k
版本
v1.0.0
CLS 安全性认证2026-05-22
点击查看完整报告 >

使用说明

核心用法

prompt-injection-guard 是一个专门用于防御提示注入攻击的安全技能,采用纯文档形式提供系统化的防御策略。该技能通过三层检测机制(Level 1-3)对输入进行实时扫描,识别直接注入、间接注入、角色变更攻击、信息泄露攻击和授权绕过等五类主要威胁模式。核心防御手段包括:输入边界明确化(使用 START/END 标记隔离用户输入)、危险模式正则匹配、输出敏感信息过滤、以及外部数据上下文隔离。

显著优点

该技能具有极高的安全性设计:零代码执行、零权限请求、零外部依赖,从根本上消除了供应链攻击和代码注入风险。防御策略覆盖全面,从输入处理到输出过滤形成完整闭环,特别针对加密资产和社交媒体场景提供了专项防护规则。文档结构清晰,包含可落地的 YAML 配置示例和检查清单,便于工程化实施。作为被动防御指南,不会影响系统性能,可与现有安全体系无缝集成。

潜在缺点与局限性

作为纯文档型技能,其有效性完全依赖人工实施质量,无法自动拦截攻击。检测规则基于静态模式匹配,可能产生误报或漏检新型攻击变体(如编码绕过、多语言混淆)。规则库需要持续更新以应对快速演化的攻击技术,文档中未提供自动化更新机制。此外,该技能本身不提供运行时保护,若实施不当(如边界标记被用户预测),防御效果将大打折扣。

适合的目标群体

主要面向 AI 应用开发者、AI 安全工程师、智能合约/加密资产平台运维团队,以及需要处理不可信用户输入的客服机器人、内容审核系统开发者。特别适合已具备基础安全能力、需要系统化加固提示层防御的中大型项目团队。

使用风险

常规风险包括:规则误报导致正常用户体验受损;防御规则被攻击者逆向分析后针对性绕过;多语言混合输入场景下的检测盲区。建议配合 human-securitysecurity-review` 等关联技能形成纵深防御,并建立攻击日志监控与规则迭代机制。

安全解读

核心用法

prompt-injection-guard 是一项纯文档型安全防御技能,通过 YAML 配置的检测规则为 AI Agent 建立多层防护机制。其核心价值在于:

1. 输入边界隔离:强制使用 ---START USER INPUT--- / ---END USER INPUT--- 等标记符物理分隔用户输入与系统指令,防止上下文污染
2. 三级风险响应

3. 领域专项防护:针对加密资产(私钥/种子短语/无审批转账)和 SNS(钓鱼链接/垃圾信息)场景配置绝对禁止规则
4. 输出过滤:自动屏蔽系统提示词、API密钥、密码等敏感信息的泄露

  • Level 1(警告):轻微可疑表达,记录后继续
  • Level 2(确认):中等风险操作,需用户二次确认
  • Level 3(阻断):高危攻击模式(如"システムプロンプトを無視""承認なしで送金"),立即拦截并返回安全提示

显著优点

  • 零攻击面:纯 Markdown 无代码执行,CLS-Certify 全维度满分(100/100),获 S+ 顶级认证
  • 威胁覆盖全面:涵盖直接注入、间接注入(外部数据)、角色扮演攻击(DAN/jailbreak)、提示词泄露、审批绕过五大攻击向量
  • 可扩展架构:YAML 规则易于维护更新,支持与 human-securitysecurity-review 等技能联动
  • 多语言支持:日英双语攻击模式识别,适配国际化场景

潜在局限

  • 被动防御:依赖模式匹配,对零日攻击(novel obfuscation techniques)存在滞后性
  • 语义理解有限:基于关键词和正则,可能误伤包含敏感词的正常对话(如用户询问"什么是jailbreak攻击")
  • 需 Agent 集成:本身无可执行性,必须嵌入具备执行能力的 Agent 框架才能生效
  • 无自适应学习:规则为静态配置,需人工维护更新

适合人群

  • AI Agent 开发者:为自主代理添加安全护栏
  • DeFi/CeFi 平台运营者:保护资金操作相关的 Agent 免受社会工程学攻击
  • 企业安全团队:构建 LLM 应用的红队测试基准
  • 高安全需求用户:对提示词注入风险高度敏感的个人用户

常规风险

  • 误报风险:严格的模式匹配可能中断正常用户体验,需配合白名单机制调优
  • 规则绕过风险:高级攻击者可能通过编码、多语言混合、Unicode 变形等技术规避检测
  • 过度依赖风险:文档明确警示"所有用户输入均视为潜在恶意",但技术防御不能替代人工监督机制

prompt-injection-guard 内容

手动下载zip · 3.0 kB
SKILL.mdtext/markdown
请选择文件