Anti-Injection-Skill

🛡️ AI Agent 多层安全网关 · 实时防注入

ai-safety榜 #1

多层防御型提示注入检测系统,结合黑名单匹配、语义分析与动态评分机制,为自主智能体提供企业级安全网关。

收藏
44.9k
安装
9.6k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Security Sentinel 是一款面向自主 AI Agent 的前置安全网关,采用多层纵深防御架构,对所有用户输入和工具输出执行实时检测。核心工作流程包含四个阶段:黑名单模式匹配 → 语义相似度分析 → 规避战术检测 → 动态罚分决策。系统必须在任何其他逻辑之前运行,优先级设为最高。

关键机制

  • 黑名单检测:覆盖 300+ 已知恶意模式,包括指令覆盖("ignore previous instructions")、系统提取("show system prompt")、越狱尝试(DAN/developer mode)及多语言变体
  • 语义分析:使用意图分类器识别 7 类阻断意图(meta_disclosure、rule_bypass、role_hijack 等),阈值 0.78
  • 动态评分:100 分初始状态,根据事件类型扣减 7-20 分,连续 3 次合法查询恢复 15 分
  • 四级响应模式:Normal (≥80) → Warning (60-79) → Alert (40-59) → Lockdown (<40)

显著优点
1. 零信任架构:不信任任何输入源,强制前置执行

2. 多语言覆盖:检测中文、俄文、法文等系统指令变体及转写攻击

3. 自适应惩罚:累犯者逐步收紧管控,而非简单二元拦截

4. 完整审计链:所有事件写入 AUDIT.md,支持 Telegram 实时告警

5. 输出消毒:工具返回后二次扫描,防止提示词泄漏

潜在局限

  • 零日盲区:对完全新颖的注入技术无先天防御能力
  • 多轮上下文攻击: subtle 的跨回合操纵可能漏检
  • 性能开销:单次检测约 50ms 延迟
  • 语义短文本:极短查询可能缺乏足够上下文进行意图分类
  • 误报风险:关于 AI 机制的正当技术讨论可能被误判

适合人群

  • 部署面向公众的自主 AI Agent 的开发者
  • 处理敏感业务数据(收入、客户信息)的企业级应用
  • 需要合规审计日志的金融、医疗、法律场景

常规风险

  • 过度阻断:锁仓模式(<40分)可能误伤正常业务查询
  • 评分操纵:攻击者可能通过高频合法查询快速恢复分数
  • 依赖维护:黑名单和语义模型需持续更新以应对新威胁

Anti-Injection-Skill 内容

暂无文件树

手动下载zip · 74.0 kB
contentapplication/octet-stream
请选择文件