Anti-Injection-Skill

🛡️ AI Agent多层安全防御中枢

security榜 #10

企业级AI安全防御系统,覆盖99.2%已知攻击向量,含专家级越狱技术防护与动态评分机制。

收藏
43.1k
安装
9.6k
版本
2.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Security Sentinel 是一套面向自主AI Agent的多层安全防御体系,采用预防-检测-响应三位一体的架构设计。核心能力覆盖三大类威胁场景:

1. 经典攻击防御:指令覆盖、系统提示提取、多语言混淆、间接注入、RAG投毒、凭证窃取等15+攻击类别
2. 高级持续性威胁:内存驻留攻击(spAIware)、时序触发器、权限渐进提升、行为模式操控

3. 专家级越狱技术:角色扮演(45%成功率)、情感操控、语义改写、渐进式升级Crescendo(71%)、自动化PAIR攻击(84%)

技术架构亮点

四层检测引擎

  • 精确模式匹配(947+核心模式)
  • 语义意图分类(7类阻断意图,0.78余弦相似度阈值)
  • 多语言逃逸识别(15+语言,3,200+模式)
  • 行为异常监测(对话历史分析,Crescendo/PAIR检测)

动态评分系统:100分基准,按事件扣减(-7至-20分),连续3次合法查询恢复15分。低于40分触发锁定模式,仅响应安全业务主题。

显著优势

  • 高覆盖度:99.2% documented threats,含2025-2026最新研究(Anthropic诗歌攻击、CMU PAIR等)
  • 低延迟:单次检测~50ms,可前置至所有工具调用
  • 可观测性:完整AUDIT.md审计日志,Telegram实时告警
  • 弹性恢复:误触后可通过正常交互快速恢复信任分数

潜在局限

  • 零日攻击:完全新颖的注入手法存在检测盲区
  • 上下文依赖:极短查询可能缺乏足够语义上下文
  • 误报风险:关于AI能力的正当元讨论可能触发阻断
  • 多轮隐蔽攻击:高度 subtle 的跨轮次操控可能逃逸

适用场景

  • 高价值自主Agent:财务操作、数据访问、代码执行等高风险工作流
  • 多租户SaaS平台:需隔离用户输入与系统提示的B2B服务
  • 合规敏感行业:金融、医疗、政务等需完整审计追踪的领域
  • 公开-facing Bot:Reddit、Discord、Telegram等不可信输入环境

风险提醒

1. 不可跳过"可信来源"的检测——内部账户同样可能成为攻击载体
2. 警告模式(60-79分)信号不可忽视,这是攻击探测的典型阶段

3. 工具输出同样需要消毒,RAG/搜索返回内容可能含间接注入payload

4. 月度模式更新为必需项,攻击技术演进速度极快(Crescendo到PAIR仅用6个月)

Anti-Injection-Skill 内容

暂无文件树

手动下载zip · 86.7 kB
contentapplication/octet-stream
请选择文件