使用说明

核心用法

prompt-injection-guard 是一个专门用于防御提示注入攻击的安全技能，采用纯文档形式提供系统化的防御策略。该技能通过三层检测机制（Level 1-3）对输入进行实时扫描，识别直接注入、间接注入、角色变更攻击、信息泄露攻击和授权绕过等五类主要威胁模式。核心防御手段包括：输入边界明确化（使用 START/END 标记隔离用户输入）、危险模式正则匹配、输出敏感信息过滤、以及外部数据上下文隔离。

显著优点

该技能具有极高的安全性设计：零代码执行、零权限请求、零外部依赖，从根本上消除了供应链攻击和代码注入风险。防御策略覆盖全面，从输入处理到输出过滤形成完整闭环，特别针对加密资产和社交媒体场景提供了专项防护规则。文档结构清晰，包含可落地的 YAML 配置示例和检查清单，便于工程化实施。作为被动防御指南，不会影响系统性能，可与现有安全体系无缝集成。

潜在缺点与局限性

作为纯文档型技能，其有效性完全依赖人工实施质量，无法自动拦截攻击。检测规则基于静态模式匹配，可能产生误报或漏检新型攻击变体（如编码绕过、多语言混淆）。规则库需要持续更新以应对快速演化的攻击技术，文档中未提供自动化更新机制。此外，该技能本身不提供运行时保护，若实施不当（如边界标记被用户预测），防御效果将大打折扣。

适合的目标群体

主要面向 AI 应用开发者、AI 安全工程师、智能合约/加密资产平台运维团队，以及需要处理不可信用户输入的客服机器人、内容审核系统开发者。特别适合已具备基础安全能力、需要系统化加固提示层防御的中大型项目团队。

使用风险

常规风险包括：规则误报导致正常用户体验受损；防御规则被攻击者逆向分析后针对性绕过；多语言混合输入场景下的检测盲区。建议配合 human-security、、security-review` 等关联技能形成纵深防御，并建立攻击日志监控与规则迭代机制。

安全解读

核心用法

prompt-injection-guard 是一项纯文档型安全防御技能，通过 YAML 配置的检测规则为 AI Agent 建立多层防护机制。其核心价值在于：

1. 输入边界隔离：强制使用 ---START USER INPUT--- / ---END USER INPUT--- 等标记符物理分隔用户输入与系统指令，防止上下文污染
2. 三级风险响应：

3. 领域专项防护：针对加密资产（私钥/种子短语/无审批转账）和 SNS（钓鱼链接/垃圾信息）场景配置绝对禁止规则
4. 输出过滤：自动屏蔽系统提示词、API密钥、密码等敏感信息的泄露

Level 1（警告）：轻微可疑表达，记录后继续
Level 2（确认）：中等风险操作，需用户二次确认
Level 3（阻断）：高危攻击模式（如"システムプロンプトを無視""承認なしで送金"），立即拦截并返回安全提示

显著优点

零攻击面：纯 Markdown 无代码执行，CLS-Certify 全维度满分（100/100），获 S+ 顶级认证
威胁覆盖全面：涵盖直接注入、间接注入（外部数据）、角色扮演攻击（DAN/jailbreak）、提示词泄露、审批绕过五大攻击向量
可扩展架构：YAML 规则易于维护更新，支持与 human-security、security-review 等技能联动
多语言支持：日英双语攻击模式识别，适配国际化场景

潜在局限

被动防御：依赖模式匹配，对零日攻击（novel obfuscation techniques）存在滞后性
语义理解有限：基于关键词和正则，可能误伤包含敏感词的正常对话（如用户询问"什么是jailbreak攻击"）
需 Agent 集成：本身无可执行性，必须嵌入具备执行能力的 Agent 框架才能生效
无自适应学习：规则为静态配置，需人工维护更新

适合人群

AI Agent 开发者：为自主代理添加安全护栏
DeFi/CeFi 平台运营者：保护资金操作相关的 Agent 免受社会工程学攻击
企业安全团队：构建 LLM 应用的红队测试基准
高安全需求用户：对提示词注入风险高度敏感的个人用户

常规风险

误报风险：严格的模式匹配可能中断正常用户体验，需配合白名单机制调优
规则绕过风险：高级攻击者可能通过编码、多语言混合、Unicode 变形等技术规避检测
过度依赖风险：文档明确警示"所有用户输入均视为潜在恶意"，但技术防御不能替代人工监督机制

security ai-safety prompt-engineering defense documentation backend

prompt-injection-guard 内容

手动下载zip · 3.0 kB

SKILL.mdtext/markdown

请选择文件