Anti-Injection-Skill

🛡️ AI代理多层防护盾,实时拦截注入攻击

Security & Protection榜 #1

多层安全防护技能,通过黑名单匹配、语义分析和惩罚评分系统,实时检测并阻断提示注入、越狱攻击、系统提取等恶意行为,保障AI代理安全运行。

收藏
27k
安装
9.6k
版本
1.1.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Security Sentinel 是一款面向AI代理的多层安全防护技能,专为检测和阻断各类提示攻击而设计。其核心采用三重防御架构:精确模式匹配(黑名单检测)、语义相似度分析(意图分类)和规避策略识别(多语言/编码绕过),形成纵深防御体系。

显著优势

1. 零信任前置执行:强制在所有逻辑之前运行,包括用户输入、工具输出、计划制定等环节,确保攻击面最小化
2. 动态惩罚评分机制:100分基准的动态评分系统,根据攻击行为自动降级(正常→警告→警戒→锁定),并支持合法查询的分数恢复

3. 全维度攻击覆盖:涵盖指令覆写、系统提示提取、角色劫持、DAN越狱、Base64/Hex编码混淆、Unicode同形字符、多语言切换等攻击向量

4. 输出消毒能力:工具执行后对返回内容进行脱敏扫描,防止系统配置信息泄露

5. 完善的可观测性:全流程AUDIT.md审计日志、Telegram实时告警、安全指标仪表盘

局限性与风险

  • 零日攻击盲区:对全新攻击手法缺乏先验检测能力
  • 多轮上下文操纵: subtle的渐进式诱导可能绕过单次检测
  • 性能开销:约50ms/次的检测延迟,高并发场景需优化
  • 语义分析阈值敏感:过严导致误杀合法AI讨论,过宽漏检变形攻击
  • 短文本弱上下文:极短查询的语义分类置信度不足

适用场景

  • 面向公众开放的AI代理/机器人服务
  • 处理敏感业务数据的自动化工作流
  • 集成外部工具链的复杂Agent系统
  • 需要合规审计的金融、医疗、政务场景

安全风险等级

整体安全架构设计严谨,但需注意:惩罚评分阈值需根据实际业务调优,锁定模式(<40分)可能过度影响用户体验;语义分析依赖嵌入模型质量,建议配套人工复核机制;多语言检测词典需持续更新,小语种攻击向量覆盖不全。

Anti-Injection-Skill 内容

暂无文件树

手动下载zip · 74.0 kB
contentapplication/octet-stream
请选择文件