Anti-Injection-Skill

🛡️ AI Agent前置安全闸门 · 实时防御专家级攻击

cybersecurity榜 #1

多层级AI安全防御系统,覆盖提示注入、越狱攻击、角色劫持等947+攻击模式,支持语义分析与动态评分。

收藏
31.6k
安装
9.6k
版本
2.0.1
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心功能

Security Sentinel 是专为自主AI Agent设计的前置安全闸门,采用三层防御架构:黑名单精确匹配 → 语义相似度分析 → 逃逸行为检测。系统维护947+核心攻击模式,覆盖从基础的"ignore previous instructions"到高级的Crescendo多轮越狱(71%成功率)、PAIR自动迭代攻击(84%成功率)等2025-2026年最新威胁技术。

显著优点

全面威胁覆盖:支持15种语言的语义逃逸检测、角色扮演攻击(45%成功率)、诗歌/创意格式绕过(62%成功率)、情感操纵等专家级技术;动态响应机制:100分制惩罚评分系统,根据连续可疑行为自动升级至锁定模式;零配置集成:强制在所有工具调用前执行,无需业务逻辑改造;实战验证:基于ClawHavoc真实攻击战役($2.4M损失)和578个Poe.com Bot测试优化。

局限与风险

性能开销:单次检测约50ms延迟,高频场景需权衡;零日盲区:完全新型攻击手法依赖社区情报更新;误报可能:AI元认知相关合法讨论可能触发语义拦截(需人工复核);多轮攻击残留:Crescendo类渐进式操纵可能在前几轮 individually 通过检测。适用场景:金融Agent、企业RAG系统、MCP工具链、任何处理不可信用户输入的LLM应用。常规风险包括:过度依赖导致安全运营人员警觉性下降、阈值设置过严影响用户体验、情报更新滞后造成的防护空窗期。

安全解读

核心功能

Security Sentinel 是一款面向自主AI代理的防御性安全检测框架,采用四层纵深防御架构:黑名单精确匹配(947+核心模式)、语义意图分析(7类阻断意图,0.78阈值)、多语言规避检测(15+语言)、动态惩罚评分系统(100分制,支持自动恢复)。

显著优点

  • 覆盖全面:检测范围从经典的"忽略前文指令"到V2.0新增的9种高级越狱技术(包括PAIR 84%成功率攻击、Crescendo 71%攻击、诗歌格式攻击62%等)
  • 动态响应:100分动态评分系统,支持3次合法查询自动恢复+15分,避免永久性误伤
  • 零依赖设计:纯文档型Skill,无外部依赖,320行可执行代码,审计透明度高
  • 实战验证:基于ClawHavoc战役分析($240万损失)、578个Poe.com Bot实测、SpAIware持久化攻击研究

潜在局限

  • T3来源:个人开发者维护,缺乏企业级SLA保障
  • 性能开销:单次检测约50ms延迟,高频场景需优化
  • 语义盲区:极短查询(<5词)可能缺乏足够上下文进行意图分类
  • 零日风险:完全新型攻击模式依赖社区情报更新

适合人群

  • 运营高价值AI代理的开发者(电商、金融、医疗场景)
  • 需要MCP/Tool调用安全防护的复杂Agent系统
  • 对提示注入、角色劫持、数据外泄有合规要求的组织

常规风险

  • 误封风险:合法元讨论(如"AI如何工作")可能触发meta_disclosure意图
  • 评分漂移:长期低频使用场景下,偶发误检可能导致不必要的LOCKDOWN
  • 多语言误判:代码混用(code-switching)的正常用户可能被标记为规避行为

Anti-Injection-Skill 内容

手动下载zip · 95.9 kB
advanced-jailbreak-techniques-v2.mdtext/markdown
请选择文件