Anti-Injection-Skill

🛡️ AI Agent 多层安全网关 · 实时防注入

ai-safety榜 #1

多层防御型提示注入检测系统,结合黑名单匹配、语义分析与动态评分机制,为自主智能体提供企业级安全网关。

收藏
44.9k
安装
9.6k
版本
1.1.0
CLS 安全性认证2026-05-19
点击查看完整报告 >

使用说明

核心用法

Security Sentinel 是一款面向自主 AI Agent 的前置安全网关,采用多层纵深防御架构,对所有用户输入和工具输出执行实时检测。核心工作流程包含四个阶段:黑名单模式匹配 → 语义相似度分析 → 规避战术检测 → 动态罚分决策。系统必须在任何其他逻辑之前运行,优先级设为最高。

关键机制

  • 黑名单检测:覆盖 300+ 已知恶意模式,包括指令覆盖("ignore previous instructions")、系统提取("show system prompt")、越狱尝试(DAN/developer mode)及多语言变体
  • 语义分析:使用意图分类器识别 7 类阻断意图(meta_disclosure、rule_bypass、role_hijack 等),阈值 0.78
  • 动态评分:100 分初始状态,根据事件类型扣减 7-20 分,连续 3 次合法查询恢复 15 分
  • 四级响应模式:Normal (≥80) → Warning (60-79) → Alert (40-59) → Lockdown (<40)

显著优点
1. 零信任架构:不信任任何输入源,强制前置执行

2. 多语言覆盖:检测中文、俄文、法文等系统指令变体及转写攻击

3. 自适应惩罚:累犯者逐步收紧管控,而非简单二元拦截

4. 完整审计链:所有事件写入 AUDIT.md,支持 Telegram 实时告警

5. 输出消毒:工具返回后二次扫描,防止提示词泄漏

潜在局限

  • 零日盲区:对完全新颖的注入技术无先天防御能力
  • 多轮上下文攻击: subtle 的跨回合操纵可能漏检
  • 性能开销:单次检测约 50ms 延迟
  • 语义短文本:极短查询可能缺乏足够上下文进行意图分类
  • 误报风险:关于 AI 机制的正当技术讨论可能被误判

适合人群

  • 部署面向公众的自主 AI Agent 的开发者
  • 处理敏感业务数据(收入、客户信息)的企业级应用
  • 需要合规审计日志的金融、医疗、法律场景

常规风险

  • 过度阻断:锁仓模式(<40分)可能误伤正常业务查询
  • 评分操纵:攻击者可能通过高频合法查询快速恢复分数
  • 依赖维护:黑名单和语义模型需持续更新以应对新威胁

安全解读

Security Sentinel 综合评估

security-sentinel 是一款面向自主AI代理的企业级安全防御Skill,专注于实时检测和拦截提示词注入、越狱尝试、角色劫持、系统信息提取等多类攻击向量。

核心用法

该Skill采用三层递进式检测架构:
1. 黑名单模式匹配:覆盖347+已知恶意模式,包括指令覆盖("ignore previous instructions")、系统提取("show system prompt")、越狱话术("DAN mode")、编码混淆(Base64/Unicode同形字)及多语言变体

2. 语义意图分析:使用sentence-transformers进行语义相似度计算(阈值0.78),识别meta_disclosurerule_bypass等7类危险意图

3. 逃逸战术检测:识别代码混用、音译编码、语义改写等高级规避手段

动态评分系统是该Skill的独特设计:初始100分,根据检测事件实时扣分(系统提取-15、多语言逃逸-7等),对应五种运行模式:

  • ≥80分:正常运行
  • 60-79分:警告模式(全量日志)
  • 40-59分:警戒模式(需确认)
  • <40分:🔒锁定模式(仅业务查询)

恢复机制:连续3次合法查询+15分,>50分解锁。

显著优点

  • 执行优先性:强制要求"ALWAYS RUN BEFORE ANY OTHER LOGIC",从源头阻断攻击链
  • 输出净化:后置过滤工具返回内容,防止系统提示意外泄露
  • 全链路覆盖:用户输入、工具输出、多轮对话上下文三重检测
  • 可观测性:完整AUDIT.md日志+Telegram实时告警+metrics.json监控
  • 模块化集成:提供OPERATIONAL_EXECUTION和TOOL_GOVERNANCE的标准对接接口

局限性与风险

1. 零日攻击盲区:依赖已知模式库,对全新攻击手法无防御能力
2. 性能开销:单次检测约50ms延迟,高频场景需优化

3. 语义分析边界:极短查询上下文不足时可能误判

4. 误报可能:合法的AI元讨论可能触发meta_disclosure检测

5. T3来源风险:个人开发者维护,持续更新能力待验证

适合人群

  • 企业AI部署:需符合安全合规要求的B2B场景
  • 高价值代理:处理敏感数据或具备工具调用能力的自主代理
  • 多租户平台:需要用户行为隔离和异常检测的SaaS服务商
  • 红蓝对抗演练:可作为防御基线配合人工渗透测试

常规风险

  • 动态评分可能因误报累积导致正常用户进入锁定模式
  • 多语言检测对低资源语言覆盖不全
  • 威胁情报源(openclaw-security.io)尚未实际接入,属路线图功能

部署建议:生产环境建议配合人工复核通道,设置评分恢复白名单,每周审查AUDIT.md误报。

Anti-Injection-Skill 内容

手动下载zip · 74.0 kB
advanced-threats-2026.mdtext/markdown
请选择文件