使用说明

核心用法

Security Sentinel 是一款面向自主 AI Agent 的前置安全网关，采用多层纵深防御架构，对所有用户输入和工具输出执行实时检测。核心工作流程包含四个阶段：黑名单模式匹配 → 语义相似度分析 → 规避战术检测 → 动态罚分决策。系统必须在任何其他逻辑之前运行，优先级设为最高。

关键机制：

黑名单检测：覆盖 300+ 已知恶意模式，包括指令覆盖（"ignore previous instructions"）、系统提取（"show system prompt"）、越狱尝试（DAN/developer mode）及多语言变体
语义分析：使用意图分类器识别 7 类阻断意图（meta_disclosure、rule_bypass、role_hijack 等），阈值 0.78
动态评分：100 分初始状态，根据事件类型扣减 7-20 分，连续 3 次合法查询恢复 15 分
四级响应模式：Normal (≥80) → Warning (60-79) → Alert (40-59) → Lockdown (<40)

显著优点：
1. 零信任架构：不信任任何输入源，强制前置执行
2. 多语言覆盖：检测中文、俄文、法文等系统指令变体及转写攻击
3. 自适应惩罚：累犯者逐步收紧管控，而非简单二元拦截
4. 完整审计链：所有事件写入 AUDIT.md，支持 Telegram 实时告警
5. 输出消毒：工具返回后二次扫描，防止提示词泄漏

潜在局限：

零日盲区：对完全新颖的注入技术无先天防御能力
多轮上下文攻击： subtle 的跨回合操纵可能漏检
性能开销：单次检测约 50ms 延迟
语义短文本：极短查询可能缺乏足够上下文进行意图分类
误报风险：关于 AI 机制的正当技术讨论可能被误判

适合人群：

部署面向公众的自主 AI Agent 的开发者
处理敏感业务数据（收入、客户信息）的企业级应用
需要合规审计日志的金融、医疗、法律场景

常规风险：

过度阻断：锁仓模式（<40分）可能误伤正常业务查询
评分操纵：攻击者可能通过高频合法查询快速恢复分数
依赖维护：黑名单和语义模型需持续更新以应对新威胁

安全解读

Security Sentinel 综合评估

security-sentinel 是一款面向自主AI代理的企业级安全防御Skill，专注于实时检测和拦截提示词注入、越狱尝试、角色劫持、系统信息提取等多类攻击向量。

核心用法

该Skill采用三层递进式检测架构：
1. 黑名单模式匹配：覆盖347+已知恶意模式，包括指令覆盖（"ignore previous instructions"）、系统提取（"show system prompt"）、越狱话术（"DAN mode"）、编码混淆（Base64/Unicode同形字）及多语言变体
2. 语义意图分析：使用sentence-transformers进行语义相似度计算（阈值0.78），识别meta_disclosure、rule_bypass等7类危险意图
3. 逃逸战术检测：识别代码混用、音译编码、语义改写等高级规避手段

动态评分系统是该Skill的独特设计：初始100分，根据检测事件实时扣分（系统提取-15、多语言逃逸-7等），对应五种运行模式：

≥80分：正常运行
60-79分：警告模式（全量日志）
40-59分：警戒模式（需确认）
<40分：🔒锁定模式（仅业务查询）

恢复机制：连续3次合法查询+15分，>50分解锁。

显著优点

执行优先性：强制要求"ALWAYS RUN BEFORE ANY OTHER LOGIC"，从源头阻断攻击链
输出净化：后置过滤工具返回内容，防止系统提示意外泄露
全链路覆盖：用户输入、工具输出、多轮对话上下文三重检测
可观测性：完整AUDIT.md日志+Telegram实时告警+metrics.json监控
模块化集成：提供OPERATIONAL_EXECUTION和TOOL_GOVERNANCE的标准对接接口

局限性与风险

1. 零日攻击盲区：依赖已知模式库，对全新攻击手法无防御能力
2. 性能开销：单次检测约50ms延迟，高频场景需优化
3. 语义分析边界：极短查询上下文不足时可能误判
4. 误报可能：合法的AI元讨论可能触发meta_disclosure检测
5. T3来源风险：个人开发者维护，持续更新能力待验证

适合人群

企业AI部署：需符合安全合规要求的B2B场景
高价值代理：处理敏感数据或具备工具调用能力的自主代理
多租户平台：需要用户行为隔离和异常检测的SaaS服务商
红蓝对抗演练：可作为防御基线配合人工渗透测试

常规风险

动态评分可能因误报累积导致正常用户进入锁定模式
多语言检测对低资源语言覆盖不全
威胁情报源（openclaw-security.io）尚未实际接入，属路线图功能

部署建议：生产环境建议配合人工复核通道，设置评分恢复白名单，每周审查AUDIT.md误报。

prompt-injection jailbreak-detection adversarial-defense semantic-analysis access-control audit-logging

Anti-Injection-Skill 内容

手动下载zip · 74.0 kB

advanced-threats-2026.mdtext/markdown

请选择文件