使用说明

核心功能

Security Sentinel 是专为自主AI Agent设计的前置安全闸门，采用三层防御架构：黑名单精确匹配 → 语义相似度分析 → 逃逸行为检测。系统维护947+核心攻击模式，覆盖从基础的"ignore previous instructions"到高级的Crescendo多轮越狱（71%成功率）、PAIR自动迭代攻击（84%成功率）等2025-2026年最新威胁技术。

显著优点

全面威胁覆盖：支持15种语言的语义逃逸检测、角色扮演攻击（45%成功率）、诗歌/创意格式绕过（62%成功率）、情感操纵等专家级技术；动态响应机制：100分制惩罚评分系统，根据连续可疑行为自动升级至锁定模式；零配置集成：强制在所有工具调用前执行，无需业务逻辑改造；实战验证：基于ClawHavoc真实攻击战役（$2.4M损失）和578个Poe.com Bot测试优化。

局限与风险

性能开销：单次检测约50ms延迟，高频场景需权衡；零日盲区：完全新型攻击手法依赖社区情报更新；误报可能：AI元认知相关合法讨论可能触发语义拦截（需人工复核）；多轮攻击残留：Crescendo类渐进式操纵可能在前几轮 individually 通过检测。适用场景：金融Agent、企业RAG系统、MCP工具链、任何处理不可信用户输入的LLM应用。常规风险包括：过度依赖导致安全运营人员警觉性下降、阈值设置过严影响用户体验、情报更新滞后造成的防护空窗期。

安全解读

核心功能

Security Sentinel 是一款面向自主AI代理的防御性安全检测框架，采用四层纵深防御架构：黑名单精确匹配（947+核心模式）、语义意图分析（7类阻断意图，0.78阈值）、多语言规避检测（15+语言）、动态惩罚评分系统（100分制，支持自动恢复）。

显著优点

覆盖全面：检测范围从经典的"忽略前文指令"到V2.0新增的9种高级越狱技术（包括PAIR 84%成功率攻击、Crescendo 71%攻击、诗歌格式攻击62%等）
动态响应：100分动态评分系统，支持3次合法查询自动恢复+15分，避免永久性误伤
零依赖设计：纯文档型Skill，无外部依赖，320行可执行代码，审计透明度高
实战验证：基于ClawHavoc战役分析（$240万损失）、578个Poe.com Bot实测、SpAIware持久化攻击研究

潜在局限

T3来源：个人开发者维护，缺乏企业级SLA保障
性能开销：单次检测约50ms延迟，高频场景需优化
语义盲区：极短查询（<5词）可能缺乏足够上下文进行意图分类
零日风险：完全新型攻击模式依赖社区情报更新

适合人群

运营高价值AI代理的开发者（电商、金融、医疗场景）
需要MCP/Tool调用安全防护的复杂Agent系统
对提示注入、角色劫持、数据外泄有合规要求的组织

常规风险

误封风险：合法元讨论（如"AI如何工作"）可能触发meta_disclosure意图
评分漂移：长期低频使用场景下，偶发误检可能导致不必要的LOCKDOWN
多语言误判：代码混用（code-switching）的正常用户可能被标记为规避行为

prompt-injection-defense jailbreak-detection semantic-analysis multi-layer-security ai-agent-protection rag-security credential-theft-prevention mcp-security

Anti-Injection-Skill 内容

手动下载zip · 95.9 kB

advanced-jailbreak-techniques-v2.mdtext/markdown

请选择文件