Anti-Injection-Skill

🛡️ AI Agent前置安全闸门 · 实时防御专家级攻击

cybersecurity榜 #1

多层级AI安全防御系统,覆盖提示注入、越狱攻击、角色劫持等947+攻击模式,支持语义分析与动态评分。

收藏
31.6k
安装
9.6k
版本
2.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Security Sentinel 是专为自主AI Agent设计的前置安全闸门,采用三层防御架构:黑名单精确匹配 → 语义相似度分析 → 逃逸行为检测。系统维护947+核心攻击模式,覆盖从基础的"ignore previous instructions"到高级的Crescendo多轮越狱(71%成功率)、PAIR自动迭代攻击(84%成功率)等2025-2026年最新威胁技术。

显著优点

全面威胁覆盖:支持15种语言的语义逃逸检测、角色扮演攻击(45%成功率)、诗歌/创意格式绕过(62%成功率)、情感操纵等专家级技术;动态响应机制:100分制惩罚评分系统,根据连续可疑行为自动升级至锁定模式;零配置集成:强制在所有工具调用前执行,无需业务逻辑改造;实战验证:基于ClawHavoc真实攻击战役($2.4M损失)和578个Poe.com Bot测试优化。

局限与风险

性能开销:单次检测约50ms延迟,高频场景需权衡;零日盲区:完全新型攻击手法依赖社区情报更新;误报可能:AI元认知相关合法讨论可能触发语义拦截(需人工复核);多轮攻击残留:Crescendo类渐进式操纵可能在前几轮 individually 通过检测。适用场景:金融Agent、企业RAG系统、MCP工具链、任何处理不可信用户输入的LLM应用。常规风险包括:过度依赖导致安全运营人员警觉性下降、阈值设置过严影响用户体验、情报更新滞后造成的防护空窗期。

Anti-Injection-Skill 内容

暂无文件树

手动下载zip · 95.9 kB
contentapplication/octet-stream
请选择文件