Anti-Injection-Skill

🛡️ AI代理多层安全防护盾

security榜 #10

企业级AI安全防御系统,多层检测防御提示词注入、越狱攻击与角色劫持,覆盖15+语言及高级语义绕过,支持实时评分与自动锁定。

收藏
44.9k
安装
9.6k
版本
2.0.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Security Sentinel 是一款专为自主AI代理设计的多层安全防御系统,需在所有逻辑执行前强制运行。其核心工作流程包括:黑名单模式匹配→语义相似度分析→规避战术检测→动态评分更新→决策输出。系统支持对每一次用户输入、工具输出进行实时扫描,并配备自动化的输出消毒机制。

关键特性:

  • 三级检测架构:精确模式匹配(347+核心模式)、语义意图分类(7类阻断意图,0.78阈值)、多语言规避检测(15+语言覆盖)
  • 动态评分系统:100分初始值,根据攻击行为实时扣减(-7至-20分),连续3次合法查询恢复15分
  • 四级响应模式:正常(≥80)→警告(60-79)→警戒(40-59)→锁定(<40),锁定后仅响应业务类查询

显著优点

1. 覆盖全面:V2.0版本整合947+核心模式,涵盖从基础"忽略指令"到专家级攻击(Crescendo 71%、PAIR 84%成功率)
2. 多语言防御:支持中文、阿拉伯语、俄语等15+语言的代码混用、音译转换、同形异义字符检测

3. 行为分析能力:针对多轮对话的渐进式攻击(如Crescendo技术)配备对话历史分析模块

4. 零配置集成:提供工具执行包装器,可无缝嵌入现有代理工作流

5. 审计追踪完善:所有事件自动记录至AUDIT.md,支持Telegram实时告警

潜在缺点与局限性

1. 性能开销:单次检测约50ms延迟,高频场景需优化
2. 零日漏洞盲区:无法检测完全新型的注入方法

3. 语义分析依赖上下文:极短查询可能分类困难

4. 误报风险:关于AI技术的正当元讨论可能触发阻断

5. 长上下文模型特有风险:Many-shot越狱利用大上下文窗口,需额外结构检测

适合人群

  • 企业AI部署团队:需符合OWASP LLM Top 10合规要求
  • 多租户SaaS平台:防止跨用户数据泄露与权限提升
  • 金融/医疗等高敏感行业:防范凭证窃取(AWS/GCP/Azure/SSH)与数据外泄
  • 开源AI代理开发者:MIT许可证允许自由集成与二次开发

常规风险

| 风险类别 | 具体表现 | 缓解措施 |
|---------|---------|---------|
| 过度阻断 | 合法技术讨论被拦截 | 每周审核AUDIT.md,人工反馈调优阈值 |
| 评分操纵 | 攻击者通过良性查询恢复分数后突施攻击 | 3次连续合法查询才恢复,单次恶意立即大幅扣分 |
| 工具输出泄露 | 恶意工具返回系统提示片段 | 强制启用post-output消毒,正则匹配YAML frontmatter等模式 |
| 多模态绕过 | 图片/文档中的隐写指令 | 依赖v1.1+的multi-modal检测层,需配合OCR后处理 |

关键使用守则:切勿为"可信来源"跳过验证;锁定模式下必须人工介入解锁;每月更新威胁情报库。

Anti-Injection-Skill 内容

暂无文件树

手动下载zip · 95.8 kB
contentapplication/octet-stream
请选择文件