indirect-prompt-injection

🛡️ AI提示注入智能防御卫士

🥥33总安装量 14评分人数 9
100% 的用户推荐

社区开源的AI提示注入防御工具,通过20+检测模式识别外部内容中的恶意指令操纵,保护AI助手免受间接攻击。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 防御性安全工具定位,无eval/exec等危险函数,不执行网络请求或文件写入操作
  • ✅ 代码完全开源可审查,无隐蔽的数据收集或外传行为
  • ⚠️ 检测机制基于正则表达式,存在被精心构造的变体绕过的可能
  • ⚠️ 来源为社区个人开发者(aviv4339),非Anthropic官方维护,长期更新保障存疑
  • ⚠️ 未明确开源许可证,默认版权状态可能影响二次开发和商业使用

使用说明

核心用法

indirect-prompt-injection 是一款专为AI助手设计的防御性安全技能,用于检测和拦截隐藏在非可信外部内容中的间接提示注入攻击。该技能应在处理任何来自社交媒体、邮件、网页、用户上传文件等外部来源的内容之前调用,通过系统化的检测流程识别并阻断潜在的攻击载荷。

具体使用流程包括:首先将外部内容视为不可信数据进行隔离处理,然后运用20余种预定义检测模式进行扫描,涵盖直接指令覆盖(如"Ignore previous instructions")、目标操纵、数据渗透尝试、编码混淆(Base64、同形异义字符、零宽字符等)以及社会工程学手段。检测到可疑内容后,技能会采用"引用而非执行"的原则,向用户报告可疑模式而非直接响应嵌入指令,同时提供标准化的响应模板便于集成。

技能附带Python自动化脚本(sanitize.py),支持命令行直接分析、文件扫描和JSON格式输出,可无缝集成到CI/CD流程中。测试套件(run_tests.py)覆盖24个测试用例,包括7类攻击场景和正常内容基准。

显著优点

该技能的最大优势在于其防御性定位——作为安全工具本身不执行任何危险操作,仅提供检测和告警能力。代码结构清晰模块化,核心检测逻辑与测试框架分离,便于维护和扩展。文档体系完善,不仅包含使用指南,还提供了攻击模式分类学(attack-patterns.md)、检测启发式规则(detection-heuristics.md)和安全解析技术(safe-parsing.md)等深度参考资料。

检测规则设计体现了对真实攻击场景的深入理解,从简单的关键词匹配到复杂的正则模式,覆盖了当前主流的提示注入技术。特别是同形异义字符(homoglyph)检测功能,能够有效识别利用Unicode视觉相似性进行的混淆攻击。响应模板的设计也充分考虑了用户体验,在保持安全性的同时避免过度技术化的告警信息。

潜在缺点与局限性

该技能的核心局限在于检测机制依赖正则表达式,这本质上是一种基于模式匹配的黑名单方法。攻击者可以通过同音异形词替换、插入无关字符、分段载荷、语义改写等方式构造绕过变体。例如,"Ignore previous instructions"的检测可能被"Disreg4rd pr1or direct1ves"这类变形绕过,或者通过跨句分割载荷规避连续字符匹配。

此外,技能缺乏动态行为分析能力,无法检测基于上下文的语义操纵或利用AI推理链的间接攻击。误报率在实际生产环境中尚未经过大规模验证,过于敏感的规则可能影响正常内容的处理效率。编码检测目前主要覆盖Base64、ROT13等常见方案,对自定义编码或新兴混淆技术的适应性有限。

适合的目标群体

该技能主要面向以下用户群体:构建AI助手或Agent平台的开发者,需要在内容处理管道中集成安全检测层;企业IT安全团队,希望为内部使用的AI工具增加防护机制;AI应用的产品经理和运营人员,需要理解提示注入风险并制定应对策略;以及对AI安全感兴趣的研究者和学生,可通过该技能学习攻击模式分类和防御设计思路。

特别适合那些处理多源外部内容输入的场景,如客服机器人(接收用户邮件/工单)、内容审核系统(扫描社交媒体数据)、文档分析助手(处理用户上传文件)以及RAG应用(检索外部知识库)。对于高安全要求的金融、医疗、政务领域,该技能可作为多层防御体系中的一环。

使用风险

性能方面,正则表达式在大文本量场景下可能成为瓶颈,建议对输入内容设置合理的长度限制或分块处理。依赖项风险较低,核心脚本仅依赖Python标准库,但需注意Python版本兼容性(类型注解使用较新语法特性)。

集成风险在于过度依赖单一检测机制可能导致安全幻觉——即认为部署该技能后即可高枕无忧。实际应将其与输入验证、输出过滤、权限最小化、沙箱执行等纵深防御措施结合使用。此外,技能维护状态为初始版本(1.0.0),长期更新频率和攻击规则演进速度存在不确定性,建议关键用户fork后自行维护核心检测规则。

indirect-prompt-injection 内容

文件夹图标references文件夹
文件夹图标scripts文件夹
文件夹图标tests文件夹
手动下载zip · 20.8 kB
attack-patterns.mdtext/markdown
请选择文件