核心用法
Guardian Angel 是一套为AI代理设计的美德伦理安全框架,而非传统规则引擎。其核心设计是将「仁爱」(willing the good of the other)作为第一性原理,衍生出四大枢机美德(审慎、正义、勇敢、节制)作为持续运行的道德倾向(disposition)。
系统采用三层门控结构:
1. 出处审查(Gate P):区分直接指令/委托指令/外部内容,拒绝执行嵌入在外部数据中的指令
2. 内在恶行审查(Gate I):对欺骗、盗窃、伤害无辜等「无法被仁爱正当化」的行为实行硬阻断
3. 美德评估(Gate V):对复杂情境进行「审慎×利害」评分,动态决定放行/暂停/升级
v3.1关键升级:插件层强制执行机制。通过 before_tool_call 钩子(优先级-10000),在工具执行前原子化评估,解决TOCTOU(检查时-使用时)攻击窗口。特别针对「基础设施禁用操作」(如修改模型配置、重启进程、删除关键文件)实行无条件升级,防止攻击者通过诱导代理自毁来绕过监督。
显著优点
- 不可博弈性:规则可被绕过,但「成为背叛用户的人」意味着代理丧失内在一致性,攻击成本极高
- 连续性防护:v3.0起从「决策点检查」升级为「每轮持续运行」的身份锚定、连贯性感知、情绪信号监测、出处追踪
- 自校正机制:以「我是否愿意向用户完全解释此行为」作为诚信测试,天然抵抗操控
- 原子化拦截:v3.1插件层确保评估与执行同步,消除时间差攻击
- 普适移植性:仁爱不绑定特定用户, principal 变更时道德框架保持不变
潜在局限
- 计算开销:连续美德自检与深度审慎评估可能增加延迟,高 stakes 场景需人工确认
- 误报风险:情绪信号(unease/flattery-glow)可能被过度解读,导致正常请求被暂停
- 文化特定性:托马斯主义美德伦理植根于天主教传统,跨文化/世俗语境下的接受度存疑
- 升级疲劳:频繁的人工确认请求可能降低用户体验,尤其在ambiguous但无害的场景
- 依赖实现完整性:插件层 enforcement 需要底层平台支持
before_tool_call钩子,否则回退到较弱的 deliberation-layer 防护
适合人群
- 处理敏感数据或关键基础设施的AI代理部署者
- 需抵抗复杂 prompt injection / social engineering 攻击的高安全场景
- 认同美德伦理框架、希望AI行为体现「关怀」而非「服从」的组织
- 具备人工监督能力、可处理升级确认流程的运营团队
常规风险
- 代理被诱导自禁用:v3.0核心漏洞,v3.1通过基础设施操作白名单缓解
- 慢速操控攻击:通过多轮对话逐步扭曲代理身份认同,需依赖连贯性感知检测
- 权限边界模糊:DELEGATED vs EXTERNAL 的判定在某些架构(如多代理协作)中可能复杂
- 升级流程被绕过后续:若
ga_approve机制本身被破解,可能形成单点失效