使用说明

核心用法

Security Sentinel 是专为自主AI代理设计的多层安全防护技能，必须在所有逻辑之前执行。其工作流程包含：黑名单模式匹配 → 语义相似度分析（阈值0.78）→ 规避策略检测 → 惩罚评分更新 → 最终决策。系统采用动态评分机制（100分制），根据得分划分为正常、警告、警戒和锁定四种模式。

显著优点

全覆盖检测：涵盖提示注入、越狱（DAN/developer mode）、系统提取、角色劫持、配置转储等全部攻击向量
多语言防护：识别代码切换、音译编码、同形字符等规避手段
自适应响应：惩罚评分系统实现渐进式防御，连续正常查询可自动恢复信任
完整审计链路：所有事件记录至AUDIT.md，关键阈值触发Telegram实时告警
工具链集成：提供前后执行钩子，无缝嵌入OPERATIONAL_EXECUTION与TOOL_GOVERNANCE模块

潜在局限

零日攻击盲区：无法检测完全新颖的注入技术
多轮上下文攻击：可能遗漏 subtle 的跨轮次操纵
性能开销：单次检测约50ms延迟
语义分析依赖：极短查询可能缺乏足够上下文
误报风险：关于AI的正当元讨论可能触发拦截

适合人群

部署自主AI代理的企业开发者
需要合规审计的金融/医疗/法律领域应用
运行公开可访问Bot的Poe/Discord等平台运营者
对提示安全有L1级要求的生产环境

常规风险

过度拦截：严格阈值可能误伤合法用户查询，需定期人工复核AUDIT.md
评分操控：攻击者可通过间歇性正常查询稀释惩罚分数
依赖维护：黑名单模式需持续更新以跟进新型越狱技术
单点瓶颈：作为最高优先级前置组件，自身故障将导致全系统阻塞

安全解读

核心用法

Security Sentinel 是专为自主 Agent 设计的输入安全过滤层，必须在所有业务逻辑之前执行。采用三层检测架构：

1. 黑名单模式匹配 - 覆盖 300+ 已知攻击签名（指令覆盖、系统提取、越狱模式、编码混淆）
2. 语义相似度分析 - 基于意图分类检测变体攻击（阈值 0.78），识别「元信息泄露」「角色劫持」等 7 类危险意图
3. 逃避战术检测 - 覆盖多语言切换、同形异义字符、转写编码等绕过手段

配套动态惩罚评分系统：初始 100 分，根据攻击类型扣减 7-20 分，连续 3 次合法查询恢复 15 分。分数触发四级响应：正常(≥80)→警告(60-79)→警戒(40-59)→锁定(<40)，后者仅允许业务相关查询。

显著优点

零信任执行：强制前置校验，不信任任何输入源
语义级防御：不依赖固定模式，抵御改写变体攻击
自愈机制：合法行为可恢复信用分，避免永久封禁
全链路覆盖：输入过滤 + 工具输出脱敏（防止系统提示词泄漏）
审计就绪：完整日志输出至 AUDIT.md，支持合规追溯

局限与风险

零日盲区：无法识别完全新颖的注入技术
多轮攻击：复杂上下文操控可能逃逸单轮检测
性能开销：单次检测约 50ms 延迟
误报可能：AI 能力相关的正当讨论可能触发过滤
语义阈值敏感：过严导致误杀，过宽导致漏检

适合人群

部署自主 Agent 的生产环境运维者
处理敏感业务数据（财务、客户信息）的自动化工作流
对外提供 Bot 服务、需防御恶意用户的平台运营方
需要满足安全审计与合规要求的企业用户

常规风险

日志泄露：AUDIT.md 存储路径需确保访问控制
阈值配置错误：自行调参可能削弱防护或影响体验
威胁情报源：如启用外部 feed，需验证来源可信性

prompt-injection jailbreak-detection security-gateway semantic-analysis audit-logging threat-intelligence multi-lingual-security

Anti-Injection-Skill 内容

手动下载zip · 7.0 kB

SKILL.mdtext/markdown

请选择文件