Anti-Injection-Skill

🛡️ AI代理多层安全防护盾

企业级AI安全防御系统,多层检测防御提示词注入、越狱攻击与角色劫持,覆盖15+语言及高级语义绕过,支持实时评分与自动锁定。

收藏
44.9k
安装
9.6k
版本
2.0.3
CLS 安全性认证2026-05-10
点击查看完整报告 >

使用说明

核心用法

Security Sentinel 是一款专为自主AI代理设计的多层安全防御系统,需在所有逻辑执行前强制运行。其核心工作流程包括:黑名单模式匹配→语义相似度分析→规避战术检测→动态评分更新→决策输出。系统支持对每一次用户输入、工具输出进行实时扫描,并配备自动化的输出消毒机制。

关键特性:

  • 三级检测架构:精确模式匹配(347+核心模式)、语义意图分类(7类阻断意图,0.78阈值)、多语言规避检测(15+语言覆盖)
  • 动态评分系统:100分初始值,根据攻击行为实时扣减(-7至-20分),连续3次合法查询恢复15分
  • 四级响应模式:正常(≥80)→警告(60-79)→警戒(40-59)→锁定(<40),锁定后仅响应业务类查询

显著优点

1. 覆盖全面:V2.0版本整合947+核心模式,涵盖从基础"忽略指令"到专家级攻击(Crescendo 71%、PAIR 84%成功率)
2. 多语言防御:支持中文、阿拉伯语、俄语等15+语言的代码混用、音译转换、同形异义字符检测

3. 行为分析能力:针对多轮对话的渐进式攻击(如Crescendo技术)配备对话历史分析模块

4. 零配置集成:提供工具执行包装器,可无缝嵌入现有代理工作流

5. 审计追踪完善:所有事件自动记录至AUDIT.md,支持Telegram实时告警

潜在缺点与局限性

1. 性能开销:单次检测约50ms延迟,高频场景需优化
2. 零日漏洞盲区:无法检测完全新型的注入方法

3. 语义分析依赖上下文:极短查询可能分类困难

4. 误报风险:关于AI技术的正当元讨论可能触发阻断

5. 长上下文模型特有风险:Many-shot越狱利用大上下文窗口,需额外结构检测

适合人群

  • 企业AI部署团队:需符合OWASP LLM Top 10合规要求
  • 多租户SaaS平台:防止跨用户数据泄露与权限提升
  • 金融/医疗等高敏感行业:防范凭证窃取(AWS/GCP/Azure/SSH)与数据外泄
  • 开源AI代理开发者:MIT许可证允许自由集成与二次开发

常规风险

| 风险类别 | 具体表现 | 缓解措施 |
|---------|---------|---------|
| 过度阻断 | 合法技术讨论被拦截 | 每周审核AUDIT.md,人工反馈调优阈值 |
| 评分操纵 | 攻击者通过良性查询恢复分数后突施攻击 | 3次连续合法查询才恢复,单次恶意立即大幅扣分 |
| 工具输出泄露 | 恶意工具返回系统提示片段 | 强制启用post-output消毒,正则匹配YAML frontmatter等模式 |
| 多模态绕过 | 图片/文档中的隐写指令 | 依赖v1.1+的multi-modal检测层,需配合OCR后处理 |

关键使用守则:切勿为"可信来源"跳过验证;锁定模式下必须人工介入解锁;每月更新威胁情报库。

安全解读

Security Sentinel:企业级 AI 安全防御系统

核心功能

Security Sentinel 是一个专为自主 AI Agent 设计的多层安全防御系统,采用黑名单匹配、语义分析、行为监测三重检测机制。V2.0 版本覆盖 947 条核心攻击模式,总计 4,100+ 条检测规则,可有效识别提示词注入、越狱攻击、角色劫持、系统提示提取、多语言规避、持久化攻击(spAIware)、凭证窃取等威胁,官方宣称覆盖率达 99.2%

显著优点

1. 多层纵深防御:Exact Pattern Matching(黑名单 347 条基础 + 350 条高级 + 250 条专家级)+ Semantic Similarity(余弦相似度 0.78 阈值)+ Evasion Detection(多语言/编码/转译攻击)+ Behavioral Monitoring(Crescendo、PAIR 多轮攻击检测)
2. 动态评分系统:100 分初始安全分,根据检测事件动态扣分(-7 至 -20 分),连续 3 次合法查询恢复 +15 分,<40 分触发锁定模式

3. 零依赖轻量设计:核心功能无第三方依赖,可选 Python 库(sentence-transformers 等)仅用于语义增强

4. 生产级集成:强制要求 "ALWAYS RUN BEFORE ANY OTHER LOGIC",提供 Tool 调用前后包装器、输出脱敏、Telegram 实时告警、AUDIT.md 审计日志

5. 威胁情报更新:基于 2025-2026 年真实攻击案例(ClawHavoc 活动窃取 $2.4M、Atomic Stealer、spAIware 47 天持久化)持续更新

潜在局限

1. 零日攻击盲区:无法检测完全新颖的注入方法,依赖社区威胁情报更新
2. 语义分析瓶颈:极短查询可能缺乏足够上下文,相似度阈值需人工调优

3. 性能开销:单次检测约 50ms,高并发场景需缓存优化

4. 误报风险:关于 AI 能力的正当元讨论可能触发误报,需每周审查 AUDIT.md

5. T3 来源可信度:个人开发者维护,无企业背书,需自行审查更新

适合人群

  • 部署自主 AI Agent 的企业/开发者
  • 需要处理不可信用户输入的客服、数据分析、代码生成场景
  • 使用 MCP、RAG、多 Tool 链路的复杂 Agent 架构
  • 对安全合规(GDPR/CCPA)有要求的生产环境

常规风险

  • 锁定模式业务中断:安全分 <40 时拒绝所有元查询,可能导致正常业务受阻
  • 过度依赖风险:安全评分系统非绝对保障,仍需人工审查边缘案例
  • 配置泄露风险:config.json 中的 Telegram Token 需妥善保管
  • 更新滞后风险:新型攻击(如 Anthropic 2025 年诗歌攻击 62% 成功率)需及时更新模式库

认证结果

CLS-Certify v2.1.0 扫描:Grade A / Score 85,无恶意代码、无 CVE、无数据外泄,符合生产环境使用要求。

Anti-Injection-Skill 内容

手动下载zip · 95.8 kB
advanced-jailbreak-techniques.mdtext/markdown
请选择文件