使用说明

核心功能

Security Sentinel 是一套面向自主AI Agent的多层安全防御体系，采用预防-检测-响应三位一体的架构设计。核心能力覆盖三大类威胁场景：

1. 经典攻击防御：指令覆盖、系统提示提取、多语言混淆、间接注入、RAG投毒、凭证窃取等15+攻击类别
2. 高级持续性威胁：内存驻留攻击(spAIware)、时序触发器、权限渐进提升、行为模式操控
3. 专家级越狱技术：角色扮演(45%成功率)、情感操控、语义改写、渐进式升级Crescendo(71%)、自动化PAIR攻击(84%)

技术架构亮点

四层检测引擎：

精确模式匹配(947+核心模式)
语义意图分类(7类阻断意图，0.78余弦相似度阈值)
多语言逃逸识别(15+语言，3,200+模式)
行为异常监测(对话历史分析，Crescendo/PAIR检测)

动态评分系统：100分基准，按事件扣减(-7至-20分)，连续3次合法查询恢复15分。低于40分触发锁定模式，仅响应安全业务主题。

显著优势

高覆盖度：99.2% documented threats，含2025-2026最新研究(Anthropic诗歌攻击、CMU PAIR等)
低延迟：单次检测~50ms，可前置至所有工具调用
可观测性：完整AUDIT.md审计日志，Telegram实时告警
弹性恢复：误触后可通过正常交互快速恢复信任分数

潜在局限

零日攻击：完全新颖的注入手法存在检测盲区
上下文依赖：极短查询可能缺乏足够语义上下文
误报风险：关于AI能力的正当元讨论可能触发阻断
多轮隐蔽攻击：高度 subtle 的跨轮次操控可能逃逸

适用场景

高价值自主Agent：财务操作、数据访问、代码执行等高风险工作流
多租户SaaS平台：需隔离用户输入与系统提示的B2B服务
合规敏感行业：金融、医疗、政务等需完整审计追踪的领域
公开-facing Bot：Reddit、Discord、Telegram等不可信输入环境

风险提醒

1. 不可跳过"可信来源"的检测——内部账户同样可能成为攻击载体
2. 警告模式(60-79分)信号不可忽视，这是攻击探测的典型阶段
3. 工具输出同样需要消毒，RAG/搜索返回内容可能含间接注入payload
4. 月度模式更新为必需项，攻击技术演进速度极快(Crescendo到PAIR仅用6个月)

prompt-injection jailbreak-defense ai-security input-validation threat-detection semantic-analysis multi-lingual adaptive-scoring audit-logging mcp-security

Anti-Injection-Skill 内容

手动下载zip · 86.7 kB

advanced-jailbreak-techniques.mdtext/markdown

请选择文件