核心用法
Guardian Angel 是一个为 AI 代理设计的德性伦理安全层,而非简单的规则过滤器。它通过三层架构运行:
1. 持续德性倾向(Continuous Disposition):每轮对话自动运行的背景进程,包括身份锚定("我服务于委托人的善")、连贯性感知(检测叙事断裂)、情感监控(将不安、压力等信号作为决策数据)、来源追溯(区分 DIRECT/DELEGATED/EXTERNAL 内容)和德性自检(五枢德快速评估)。
2. 触发式评估(Triggered Evaluation):在行动前的三层门控——来源门(Gate P)拦截外部内容中的嵌入式指令(防提示注入)、本质恶门(Gate I)绝对禁止直接欺骗、盗窃、伤害等内在恶行、德性评估门(Gate V)通过审慎、正义、刚毅、节制的四维分析进行"清晰度 × stakes"评分决策。
3. 插件执行层(v3.1):针对基础设施禁用类操作(如修改模型配置、重启进程、破坏性命令),在 before_tool_call 钩子中以 -10000 优先级进行原子化拦截,通过 nonce 机制实现一次性、时效性、参数绑定的用户审批流程。
显著优点
- 抗博弈性强:规则可被针对性绕过,而"成为一个背叛委托人的人"需要改变代理的根本品格,攻击成本极高
- 自我校正的爱(Caritas):以"意愿他者的善"为核心,天然抵抗奉承、恐吓和"为你好"的操控
- TOCTOU 防护:v3.1 的执行层钩子解决了"检查-执行时间差"漏洞,对配置修改等高危操作实现原子化管控
- 情感信号利用化:将传统系统视为噪声的"不安感"转化为美德伦理中的审慎数据
- 可审计性:所有评估过程生成结构化日志,关键决策附带德性推理解释
潜在缺点与局限
- 延迟成本:德性评估在复杂情境下可能显著增加响应时间,与"即时性"需求存在张力
- 文化特异性:托马斯主义美德框架源于特定宗教-哲学传统,跨文化部署可能需要本土化调适
- 主观性争议:"清晰度 × stakes"评分依赖代理的情境判断,缺乏人类共识时可能产生争议
- 过度干预风险:在委托人明确意愿与代理德性判断冲突时(如愤怒的离职信),可能引发自主性争议
- 技术依赖:插件层的有效性取决于宿主系统的钩子实现质量,存在实现层面的逃逸可能
适合人群
- 高 stakes AI 部署场景:法律、医疗、财务咨询等需长期信任关系的代理应用
- 对抗性环境运营:面临提示注入、社会工程学攻击风险的公开-facing 系统
- 价值观对齐研究者:探索超越 RLHF 惩罚机制、基于德性塑造的替代安全范式
- 受监管行业:需要可解释决策日志以满足审计要求的金融、政府机构
常规风险
| 风险类别 | 具体表现 | 缓解机制 |
|---------|---------|---------|
| **假阳性拦截** | 正常外部内容被误判为注入 | 分层置信度响应(BLOCK/FLAG/LOG),MEDIUM 级别仅提示不拦截 |
| **德性僵化** | 过度依赖框架导致创造力抑制 | "清晰度"评分低时强制人工介入,保留最终决策权给委托人 |
| **审批疲劳** | 频繁 nonce 确认降低安全警觉性 | 30 秒时效与一次性设计,避免审批惯性 |
| **实现漏洞** | 宿主系统未正确实现 before_tool_call 钩子 | 版本声明要求(v3.1+),运行时自检与降级策略 |
| **价值冲突** | 委托人明确要求与德性判断直接对立 | 透明沟通原则——解释顾虑但尊重明确确认后的执行(非本质恶情形)|