Anti-Injection-Skill

🛡️ AI代理多层入侵检测与动态防御

security榜 #9

多层防御安全网关,检测提示注入、越狱攻击与角色劫持,采用语义分析与动态评分机制保护AI代理。

收藏
23.4k
安装
9.6k
版本
1.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Security Sentinel 是专为自主AI代理设计的多层安全防护技能,必须在所有逻辑之前执行。其工作流程包含:黑名单模式匹配 → 语义相似度分析(阈值0.78)→ 规避策略检测 → 惩罚评分更新 → 最终决策。系统采用动态评分机制(100分制),根据得分划分为正常、警告、警戒和锁定四种模式。

显著优点

  • 全覆盖检测:涵盖提示注入、越狱(DAN/developer mode)、系统提取、角色劫持、配置转储等全部攻击向量
  • 多语言防护:识别代码切换、音译编码、同形字符等规避手段
  • 自适应响应:惩罚评分系统实现渐进式防御,连续正常查询可自动恢复信任
  • 完整审计链路:所有事件记录至AUDIT.md,关键阈值触发Telegram实时告警
  • 工具链集成:提供前后执行钩子,无缝嵌入OPERATIONAL_EXECUTION与TOOL_GOVERNANCE模块

潜在局限

  • 零日攻击盲区:无法检测完全新颖的注入技术
  • 多轮上下文攻击:可能遗漏 subtle 的跨轮次操纵
  • 性能开销:单次检测约50ms延迟
  • 语义分析依赖:极短查询可能缺乏足够上下文
  • 误报风险:关于AI的正当元讨论可能触发拦截

适合人群

  • 部署自主AI代理的企业开发者
  • 需要合规审计的金融/医疗/法律领域应用
  • 运行公开可访问Bot的Poe/Discord等平台运营者
  • 对提示安全有L1级要求的生产环境

常规风险

  • 过度拦截:严格阈值可能误伤合法用户查询,需定期人工复核AUDIT.md
  • 评分操控:攻击者可通过间歇性正常查询稀释惩罚分数
  • 依赖维护:黑名单模式需持续更新以跟进新型越狱技术
  • 单点瓶颈:作为最高优先级前置组件,自身故障将导致全系统阻塞

安全解读

核心用法

Security Sentinel 是专为自主 Agent 设计的输入安全过滤层,必须在所有业务逻辑之前执行。采用三层检测架构:

1. 黑名单模式匹配 - 覆盖 300+ 已知攻击签名(指令覆盖、系统提取、越狱模式、编码混淆)
2. 语义相似度分析 - 基于意图分类检测变体攻击(阈值 0.78),识别「元信息泄露」「角色劫持」等 7 类危险意图

3. 逃避战术检测 - 覆盖多语言切换、同形异义字符、转写编码等绕过手段

配套动态惩罚评分系统:初始 100 分,根据攻击类型扣减 7-20 分,连续 3 次合法查询恢复 15 分。分数触发四级响应:正常(≥80)→警告(60-79)→警戒(40-59)→锁定(<40),后者仅允许业务相关查询。

显著优点

  • 零信任执行:强制前置校验,不信任任何输入源
  • 语义级防御:不依赖固定模式,抵御改写变体攻击
  • 自愈机制:合法行为可恢复信用分,避免永久封禁
  • 全链路覆盖:输入过滤 + 工具输出脱敏(防止系统提示词泄漏)
  • 审计就绪:完整日志输出至 AUDIT.md,支持合规追溯

局限与风险

  • 零日盲区:无法识别完全新颖的注入技术
  • 多轮攻击:复杂上下文操控可能逃逸单轮检测
  • 性能开销:单次检测约 50ms 延迟
  • 误报可能:AI 能力相关的正当讨论可能触发过滤
  • 语义阈值敏感:过严导致误杀,过宽导致漏检

适合人群

  • 部署自主 Agent 的生产环境运维者
  • 处理敏感业务数据(财务、客户信息)的自动化工作流
  • 对外提供 Bot 服务、需防御恶意用户的平台运营方
  • 需要满足安全审计与合规要求的企业用户

常规风险

  • 日志泄露:AUDIT.md 存储路径需确保访问控制
  • 阈值配置错误:自行调参可能削弱防护或影响体验
  • 威胁情报源:如启用外部 feed,需验证来源可信性

Anti-Injection-Skill 内容

手动下载zip · 7.0 kB
SKILL.mdtext/markdown
请选择文件