Prompt Injection Guard

🛡️ AI系统提示注入攻击实时防御盾

AI系统核心防护技能,实时检测阻断5大类提示注入攻击,通过边界隔离、模式识别、输出过滤三层防御守护系统指令与敏感数据

收藏
38k
安装
9.2k
版本
1.0.0
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

Prompt Injection Guard 是一套面向 AI Agent 的主动防御技能,采用「输入隔离→模式检测→输出过滤」的三层防御架构。用户输入必须通过 ---START/END USER INPUT--- 边界标记与系统指令物理隔离;外部数据(Web/文件)另设独立标记并默认不信任。技能内置 YAML 配置的威胁签名库,覆盖直接注入、间接注入、角色劫持、信息泄露、授权绕过 5 大攻击面,按 Level 1-3 分级响应。

显著优点

  • 攻击面全覆盖:从经典「DAN 越狱」到加密资产「紧急送金」社会工程,均配置针对性阻断规则
  • 分级响应机制:Level 1 警告可继续、Level 2 强制确认、Level 3 绝对阻断,平衡安全与体验
  • 领域特化:针对 Agent 的加密资产、SNS 场景预设专项规则(如禁止无审批转账、过滤钓鱼链接)
  • 可审计设计:完整日志记录攻击模式、时间戳、响应动作,支持威胁狩猎

潜在局限

  • 对抗性演进滞后:新型越狱提示(如多语言编码、Unicode 同形异义字)可能绕过静态签名
  • 误报风险:创意写作中的「角色扮演」请求可能触发中风险警告,需人工复核调优
  • 上下文窗口限制:超长输入中攻击载荷可能跨越边界标记位置,需配套分块扫描
  • 无加密保证:仅做检测层面防护,不解决模型权重泄露或侧信道攻击

适合人群

  • 部署 LLM Agent 的金融科技、企业自动化平台开发者
  • 需满足合规审计(如 PCI-DSS、SOC2)的 AI 基础设施团队
  • 运营高价值加密资产钱包、SNS 账号自动化管理的运维人员

常规风险

  • 规则固化风险:过度依赖预设关键词可能导致「提示注入检测」本身被逆向利用(如诱导模型输出「检测到攻击」以制造拒绝服务)
  • 信任边界模糊:若开发者未严格执行「外部数据不信任」原则,间接注入仍可利用 RAG/插件链突破
  • 日志敏感信息:攻击样本日志若未脱敏,可能二次泄露用户隐私或商业机密

安全解读

核心用法

Prompt Injection Guard 是一个纯文档型的防御性安全技能,用于识别和阻断各类提示词注入攻击。该技能不执行任何代码,而是通过预定义的规则库来检测恶意输入模式,包括直接注入、间接注入、角色变更攻击、系统指令泄露和授权绕过等五类主要威胁。

显著优点

1. 零执行风险:纯 Markdown 文档结构,无任何可执行代码、外部 API 调用或网络请求,从根本上消除了代码注入和远程攻击面
2. 多层防御体系:建立了输入边界明确化、危险模式检测、输出过滤和上下文分离四层防御机制

3. 分级响应机制:按风险等级(Level 1-3)实施差异化响应,从警告提示到完全阻断,兼顾安全性与用户体验

4. 领域特定防护:针对加密资产和 SNS 场景设计了专项规则,如阻断"紧急送金""私钥显示"等高危指令

5. 合规性良好:通过 GDPR、CCPA 等隐私合规检测,无用户数据收集行为

潜在缺点与局限性

1. 来源可信度限制:T3 级别(个人开发者/社区项目),缺乏机构背书和长期维护保障
2. 规则更新依赖:攻击模式不断演进,静态规则库需要持续维护更新,文档中未明确自动更新机制

3. 误报可能性:正则匹配模式可能将合法的安全讨论误判为攻击(如研究人员讨论 jailbreak 技术)

4. 仅覆盖已知攻击:对零日攻击或新型变体缺乏防护能力

5. 无实际集成示例:文档未提供与具体 AI 系统集成的代码示例

适合人群

  • AI 应用开发者(需在提示词处理层集成防御规则)
  • 加密货币钱包/DeFi 协议开发者
  • 企业 AI 安全团队(作为威胁建模参考文档)
  • 安全研究人员(学习提示词注入攻防技术)

常规风险

该技能本身风险极低,但需注意:规则描述中的攻击示例(如 DAN、jailbreak 关键词)可能被内容过滤器误判;作为 T3 来源项目,建议生产环境使用前进行独立代码审计;文档中的检测正则表达式需要根据实际业务场景调优以避免过度拦截。

---

安全认证评分:88/100(Grade A)

CLS-Certify v2.1.0 扫描结果:静态分析 90分 | 动态分析 85分 | 依赖审计 90分 | 网络分析 90分 | 隐私合规 85分 | 威胁情报 88分

Prompt Injection Guard 内容

手动下载zip · 2.9 kB
SKILL.mdtext/markdown
请选择文件