核心用法
Security Sentinel 是一款面向自主 AI Agent 的前置安全网关,采用多层纵深防御架构,对所有用户输入和工具输出执行实时检测。核心工作流程包含四个阶段:黑名单模式匹配 → 语义相似度分析 → 规避战术检测 → 动态罚分决策。系统必须在任何其他逻辑之前运行,优先级设为最高。
关键机制:
- 黑名单检测:覆盖 300+ 已知恶意模式,包括指令覆盖("ignore previous instructions")、系统提取("show system prompt")、越狱尝试(DAN/developer mode)及多语言变体
- 语义分析:使用意图分类器识别 7 类阻断意图(meta_disclosure、rule_bypass、role_hijack 等),阈值 0.78
- 动态评分:100 分初始状态,根据事件类型扣减 7-20 分,连续 3 次合法查询恢复 15 分
- 四级响应模式:Normal (≥80) → Warning (60-79) → Alert (40-59) → Lockdown (<40)
显著优点:
1. 零信任架构:不信任任何输入源,强制前置执行
2. 多语言覆盖:检测中文、俄文、法文等系统指令变体及转写攻击
3. 自适应惩罚:累犯者逐步收紧管控,而非简单二元拦截
4. 完整审计链:所有事件写入 AUDIT.md,支持 Telegram 实时告警
5. 输出消毒:工具返回后二次扫描,防止提示词泄漏
潜在局限:
- 零日盲区:对完全新颖的注入技术无先天防御能力
- 多轮上下文攻击: subtle 的跨回合操纵可能漏检
- 性能开销:单次检测约 50ms 延迟
- 语义短文本:极短查询可能缺乏足够上下文进行意图分类
- 误报风险:关于 AI 机制的正当技术讨论可能被误判
适合人群:
- 部署面向公众的自主 AI Agent 的开发者
- 处理敏感业务数据(收入、客户信息)的企业级应用
- 需要合规审计日志的金融、医疗、法律场景
常规风险:
- 过度阻断:锁仓模式(<40分)可能误伤正常业务查询
- 评分操纵:攻击者可能通过高频合法查询快速恢复分数
- 依赖维护:黑名单和语义模型需持续更新以应对新威胁