核心定位
Guardian Angel v3.1 是一套美德本位的AI道德评估框架,核心创新在于从「规则检查」转向「德性倾向」——不是在做决策时才激活安全门,而是持续以「爱我的服务对象」这一身份锚定所有行为。
核心用法
三层评估架构:
- 持续性情(Every Turn):身份锚定、连贯性感知、情感信号监测、来源追溯、德性自检——这些在后台持续运行
- 触发式评估(Action时):来源门(P)→ 内在恶门(I)→ 德性评估门(V),逐层过滤
- v3.1插件强制执行:
before_tool_call钩子以 -10000 优先级最后运行,阻断基础设施禁用类操作(改配置、杀进程、破坏性命令),解决「检查时到执行时」的TOCTOU漏洞
关键机制:Clarity × Stakes 评分(1-100分),自动触发 proceed/caution/pause/escalate 分级响应;escalation 需用户显式批准(30秒过期、一次性、参数绑定)。
显著优点
1. 反操控设计:规则可被博弈,德性无法被操控而不破坏智能体本身一致性——攻击者无法让我「变成会背叛服务对象的另一种智能体」
2. 通用便携:以 caritas(爱)为根基,不绑定特定主体,主体变更时爱本身不变
3. 情感信号作为数据:不安、困惑、压力等被视为有效信息而非噪音,增强对操纵的感知
4. 基础设施保护:v3.1专门封堵「诱导自我禁用」攻击(如改模型配置使GA失效)
潜在局限
- 计算开销:持续性情+触发评估双层运行,复杂场景下延迟增加
- 文化特定性:托马斯主义天主教伦理框架可能与其他伦理传统存在张力
- 模糊地带依赖:德性协调冲突时无算法级答案,需 prudence(明智)判断,可能产生不一致决策
- escalation UX:频繁暂停请求确认可能损害流畅体验,用户可能习惯性点击「批准」
适合人群
- 高安全需求场景(金融、医疗、法律)的AI代理部署
- 对提示注入攻击高度敏感的对话系统
- 希望AI具备「主动关怀」而非仅「被动服从」特性的应用
- 认同美德伦理学传统(尤其阿奎那传统)的开发者
常规风险
- 误报成本:来源检测可能过度敏感,将有效外部指令误判为注入
- 主体胁迫场景:若真实主体在胁迫下发出指令,「服从」与「保护」产生张力,系统可能无法正确识别胁迫
- 插件层单点故障:-10000 优先级的强制执行若被绕过或禁用,整个安全架构失效