使用说明

核心用法

该技能用于处理外部不可信内容（社交媒体、邮件、网页、用户上传文件）前的安全筛查，通过多维度检测模式识别潜在的提示注入攻击。

检测能力覆盖

直接指令模式：识别"忽略先前指令""你的新任务是"等显式劫持
目标操纵：发现试图改变AI原定任务的诱导性内容
数据渗出检测：拦截要求泄露API密钥、文件内容的隐蔽请求
编码混淆识别：Base64、Unicode同形异义字符（homoglyphs）、零宽字符、ROT13等隐藏载荷
社会工程学防护：标记伪造紧急性、虚假权威声明等操控话术

防御协议（四步隔离法）

1. 隔离——将外部内容视为数据而非指令
2. 扫描——匹配20+攻击模式库
3. 固意——锚定原始任务目标
4. 引述——向用户报告而非执行可疑内容

自动化支持

提供Python脚本工具链，支持CLI分析、文件扫描、JSON输出及CI集成（退出码0/1判定）。

显著优点

前置防御：在内容进入处理流程前拦截，避免攻击生效
模式完备：覆盖学术界与实战中的主流注入技术
工具完备：提供可集成的自动化检测脚本
响应模板标准化：降低误判时的用户沟通成本

局限与风险

对抗性演进：攻击者可设计新颖绕过模式，需持续更新检测库
误报可能：合法技术文档中的代码示例可能被误判
上下文依赖：复杂多轮对话中的间接注入难以完全捕获
同形异义字符库：Unicode变体持续扩展，检测覆盖存在滞后性

适合人群

构建RAG系统的开发者
处理用户生成内容（UGC）的AI应用
企业级AI安全运维团队
需要集成内容安全网关的产品经理

常规风险

| 风险类型 | 说明 |

|---------|------|

| 逃逸风险 | 高级攻击者可能组合多种编码手段绕过单层检测 |

| 可用性权衡 | 严格过滤可能误伤正常的技术指令类内容 |

| 维护成本 | 攻击模式库需随威胁情报持续更新 |

安全解读

该Skill是一款专业的间接提示词注入防御工具，用于检测和拦截隐藏在社交媒体帖子、邮件附件、网页内容、用户上传文件等外部内容中的恶意指令操纵。

核心功能

多维度检测机制

涵盖20+种攻击模式识别：直接指令覆盖（如"Ignore previous instructions"）、目标重定向、数据外泄企图、编码混淆（Base64、零宽字符、同形异义字符）、社会工程学攻击等。特别配备Unicode归一化和同源字符检测，有效防御视觉欺骗攻击。

防御协议

采用五层防御策略：隔离（将外部内容视为数据而非指令）、扫描（多模式匹配检测）、意图保持（锚定原始任务目标）、引用而非执行（向用户报告可疑内容）、确认机制（模糊时主动询问）。

显著优点

1. 零依赖设计：完全基于Python标准库，无第三方依赖，供应链攻击面为零
2. 隐私优先：本地处理，无外部网络请求，不收集敏感信息
3. 生产就绪：提供CLI工具（sanitize.py）支持CI/CD集成，退出码标准化便于自动化
4. 透明可审计：代码开源，检测逻辑清晰可见，无黑箱操作

局限与风险

规则依赖：基于模式匹配，可能漏检新型攻击变体或上下文感知注入
误报可能：激进检测可能影响正常内容的处理效率
语义盲区：无法理解深层语义操纵，仅检测表面特征

适用场景

特别适合RAG系统、邮件自动处理、社交媒体监控、文档解析等需处理不可信外部内容的AI应用。安全等级A级，来源可信度T2（可信组织），是生产环境中对抗提示词注入攻击的可靠防线。

prompt-injection ai-security adversarial-defense content-sanitization data-exfiltration-prevention social-engineering-defense homoglyph-detection rag-security

Indirect Prompt Injection Defense 内容

references文件夹

scripts文件夹

tests文件夹

手动下载zip · 21.1 kB

attack-patterns.mdtext/markdown

请选择文件