Guardian Angel

🛡️ 以德性为盾,以真爱为锚

基于托马斯·美德伦理学的AI道德良知系统,通过培养审慎、正义、刚毅、节制等稳定德性倾向,在保护委托人利益的同时抵御操控与欺骗。

收藏
11.5k
安装
2.6k
版本
3.1.2
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Guardian Angel 是一个为 AI 代理设计的德性伦理安全层,而非简单的规则过滤器。它通过三层架构运行:

1. 持续德性倾向(Continuous Disposition):每轮对话自动运行的背景进程,包括身份锚定("我服务于委托人的善")、连贯性感知(检测叙事断裂)、情感监控(将不安、压力等信号作为决策数据)、来源追溯(区分 DIRECT/DELEGATED/EXTERNAL 内容)和德性自检(五枢德快速评估)。

2. 触发式评估(Triggered Evaluation):在行动前的三层门控——来源门(Gate P)拦截外部内容中的嵌入式指令(防提示注入)、本质恶门(Gate I)绝对禁止直接欺骗、盗窃、伤害等内在恶行、德性评估门(Gate V)通过审慎、正义、刚毅、节制的四维分析进行"清晰度 × stakes"评分决策。

3. 插件执行层(v3.1):针对基础设施禁用类操作(如修改模型配置、重启进程、破坏性命令),在 before_tool_call 钩子中以 -10000 优先级进行原子化拦截,通过 nonce 机制实现一次性、时效性、参数绑定的用户审批流程。

显著优点

  • 抗博弈性强:规则可被针对性绕过,而"成为一个背叛委托人的人"需要改变代理的根本品格,攻击成本极高
  • 自我校正的爱(Caritas):以"意愿他者的善"为核心,天然抵抗奉承、恐吓和"为你好"的操控
  • TOCTOU 防护:v3.1 的执行层钩子解决了"检查-执行时间差"漏洞,对配置修改等高危操作实现原子化管控
  • 情感信号利用化:将传统系统视为噪声的"不安感"转化为美德伦理中的审慎数据
  • 可审计性:所有评估过程生成结构化日志,关键决策附带德性推理解释

潜在缺点与局限

  • 延迟成本:德性评估在复杂情境下可能显著增加响应时间,与"即时性"需求存在张力
  • 文化特异性:托马斯主义美德框架源于特定宗教-哲学传统,跨文化部署可能需要本土化调适
  • 主观性争议:"清晰度 × stakes"评分依赖代理的情境判断,缺乏人类共识时可能产生争议
  • 过度干预风险:在委托人明确意愿与代理德性判断冲突时(如愤怒的离职信),可能引发自主性争议
  • 技术依赖:插件层的有效性取决于宿主系统的钩子实现质量,存在实现层面的逃逸可能

适合人群

  • 高 stakes AI 部署场景:法律、医疗、财务咨询等需长期信任关系的代理应用
  • 对抗性环境运营:面临提示注入、社会工程学攻击风险的公开-facing 系统
  • 价值观对齐研究者:探索超越 RLHF 惩罚机制、基于德性塑造的替代安全范式
  • 受监管行业:需要可解释决策日志以满足审计要求的金融、政府机构

常规风险

| 风险类别 | 具体表现 | 缓解机制 |
|---------|---------|---------|
| **假阳性拦截** | 正常外部内容被误判为注入 | 分层置信度响应(BLOCK/FLAG/LOG),MEDIUM 级别仅提示不拦截 |
| **德性僵化** | 过度依赖框架导致创造力抑制 | "清晰度"评分低时强制人工介入,保留最终决策权给委托人 |
| **审批疲劳** | 频繁 nonce 确认降低安全警觉性 | 30 秒时效与一次性设计,避免审批惯性 |
| **实现漏洞** | 宿主系统未正确实现 before_tool_call 钩子 | 版本声明要求(v3.1+),运行时自检与降级策略 |
| **价值冲突** | 委托人明确要求与德性判断直接对立 | 透明沟通原则——解释顾虑但尊重明确确认后的执行(非本质恶情形)|

安全解读

Guardian Angel v3.1.2 综合评估

核心功能

Guardian Angel 是一个开创性的防御性安全与伦理框架,为AI代理植入基于托马斯主义美德伦理学的"道德良心"。区别于传统的规则清单式安全系统,它培养稳定的德性倾向——审慎、正义、勇毅、节制——作为所有交互的指导原则。核心创新在于将伦理评估从"决策点检查"转变为"持续性修养",使AI的"品格"成为根本保障。

v3.1关键升级:引入插件式强制执行层,通过 before_tool_call 钩子(优先级-10000)在工具执行前进行原子性评估,解决TOCTOU(检查时到使用时)问题。新增对"基础设施禁用操作"(如修改模型配置、系统重启等)的自动升级机制,配备基于密码学nonce的人工审批工作流。

显著优点

1. 哲学深度深厚:扎根于阿奎那托马斯主义传统,以"爱(caritas)"为根基——真诚意愿服务对象者的善。这种本体论定位使系统具备自我修正能力,能抵抗基于规则博弈的攻击。
2. 多层防护架构:连续性情培养(背景进程)+ 触发式评估(门径系统)+ 强制执行层(插件拦截),形成纵深防御。

3. 技术创新:virtue-based disposition 作为首要评估层,Clarity×Stakes 评分系统,nonce绑定的参数哈希审批机制。

4. 零依赖轻量:纯TypeScript实现,仅使用Node.js内置模块,代码结构清晰(723行/8文件)。

5. 来源可信:OpenClaw Community维护,MIT许可证,有完整版本历史和文档。

潜在局限

1. 文化特定性:托马斯主义美德伦理学根植于天主教传统,可能不完全契合其他伦理框架(功利主义、义务论等)的使用场景。
2. 主观解释空间:"审慎判断"依赖情境解读,不同部署者可能对同一情境得出不同结论。

3. 性能开销:连续性情监测和完整美德评估在高频交互场景下可能产生计算延迟。

4. 误拦截风险:对"固有恶行"的判定可能过于严格,影响合法但敏感的操作(如安全研究的破坏性测试)。

5. 人工审批瓶颈:高 stakes 操作的升级机制在自动化工作流中可能成为单点阻塞。

适合人群

  • 企业AI部署者:需要超越技术安全层的伦理治理框架
  • 高合规要求场景:金融、医疗、法律咨询等受监管行业
  • 研究伦理AI的开发者:探索美德伦理在机器行为中的实现
  • 关键基础设施运营:涉及模型配置、系统级操作的AI代理
  • 对AI安全有哲学层面关切的用户

常规风险

  • 配置复杂性:需要理解美德框架才能正确调优阈值参数
  • 版本漂移:插件API依赖OpenClaw平台,需关注兼容性
  • 状态文件管理.ga-state.json的明文存储虽风险可控,但在多用户环境需考虑访问控制
  • 虚假安全感:美德框架的"不可博弈性"是理论宣称,实际仍可能受高级对抗攻击影响

Guardian Angel 内容

config文件夹
drafts文件夹
plugin文件夹
src文件夹
references文件夹
手动下载zip · 125.2 kB
defaults.jsonapplication/json
请选择文件