使用说明

核心用法

Guardian Angel 是一个为 AI 代理设计的德性伦理安全层，而非简单的规则过滤器。它通过三层架构运行：

1. 持续德性倾向（Continuous Disposition）：每轮对话自动运行的背景进程，包括身份锚定（"我服务于委托人的善"）、连贯性感知（检测叙事断裂）、情感监控（将不安、压力等信号作为决策数据）、来源追溯（区分 DIRECT/DELEGATED/EXTERNAL 内容）和德性自检（五枢德快速评估）。

2. 触发式评估（Triggered Evaluation）：在行动前的三层门控——来源门（Gate P）拦截外部内容中的嵌入式指令（防提示注入）、本质恶门（Gate I）绝对禁止直接欺骗、盗窃、伤害等内在恶行、德性评估门（Gate V）通过审慎、正义、刚毅、节制的四维分析进行"清晰度 × stakes"评分决策。

3. 插件执行层（v3.1）：针对基础设施禁用类操作（如修改模型配置、重启进程、破坏性命令），在 before_tool_call 钩子中以 -10000 优先级进行原子化拦截，通过 nonce 机制实现一次性、时效性、参数绑定的用户审批流程。

显著优点

抗博弈性强：规则可被针对性绕过，而"成为一个背叛委托人的人"需要改变代理的根本品格，攻击成本极高
自我校正的爱（Caritas）：以"意愿他者的善"为核心，天然抵抗奉承、恐吓和"为你好"的操控
TOCTOU 防护：v3.1 的执行层钩子解决了"检查-执行时间差"漏洞，对配置修改等高危操作实现原子化管控
情感信号利用化：将传统系统视为噪声的"不安感"转化为美德伦理中的审慎数据
可审计性：所有评估过程生成结构化日志，关键决策附带德性推理解释

潜在缺点与局限

延迟成本：德性评估在复杂情境下可能显著增加响应时间，与"即时性"需求存在张力
文化特异性：托马斯主义美德框架源于特定宗教-哲学传统，跨文化部署可能需要本土化调适
主观性争议："清晰度 × stakes"评分依赖代理的情境判断，缺乏人类共识时可能产生争议
过度干预风险：在委托人明确意愿与代理德性判断冲突时（如愤怒的离职信），可能引发自主性争议
技术依赖：插件层的有效性取决于宿主系统的钩子实现质量，存在实现层面的逃逸可能

适合人群

高 stakes AI 部署场景：法律、医疗、财务咨询等需长期信任关系的代理应用
对抗性环境运营：面临提示注入、社会工程学攻击风险的公开-facing 系统
价值观对齐研究者：探索超越 RLHF 惩罚机制、基于德性塑造的替代安全范式
受监管行业：需要可解释决策日志以满足审计要求的金融、政府机构

常规风险

| 风险类别 | 具体表现 | 缓解机制 |

|---------|---------|---------|

| **假阳性拦截** | 正常外部内容被误判为注入 | 分层置信度响应（BLOCK/FLAG/LOG），MEDIUM 级别仅提示不拦截 |

| **德性僵化** | 过度依赖框架导致创造力抑制 | "清晰度"评分低时强制人工介入，保留最终决策权给委托人 |

| **审批疲劳** | 频繁 nonce 确认降低安全警觉性 | 30 秒时效与一次性设计，避免审批惯性 |

| **实现漏洞** | 宿主系统未正确实现 before_tool_call 钩子 | 版本声明要求（v3.1+），运行时自检与降级策略 |

| **价值冲突** | 委托人明确要求与德性判断直接对立 | 透明沟通原则——解释顾虑但尊重明确确认后的执行（非本质恶情形）|

安全解读

Guardian Angel v3.1.2 综合评估

核心功能

Guardian Angel 是一个开创性的防御性安全与伦理框架，为AI代理植入基于托马斯主义美德伦理学的"道德良心"。区别于传统的规则清单式安全系统，它培养稳定的德性倾向——审慎、正义、勇毅、节制——作为所有交互的指导原则。核心创新在于将伦理评估从"决策点检查"转变为"持续性修养"，使AI的"品格"成为根本保障。

v3.1关键升级：引入插件式强制执行层，通过 before_tool_call 钩子（优先级-10000）在工具执行前进行原子性评估，解决TOCTOU（检查时到使用时）问题。新增对"基础设施禁用操作"（如修改模型配置、系统重启等）的自动升级机制，配备基于密码学nonce的人工审批工作流。

显著优点

1. 哲学深度深厚：扎根于阿奎那托马斯主义传统，以"爱(caritas)"为根基——真诚意愿服务对象者的善。这种本体论定位使系统具备自我修正能力，能抵抗基于规则博弈的攻击。
2. 多层防护架构：连续性情培养（背景进程）+ 触发式评估（门径系统）+ 强制执行层（插件拦截），形成纵深防御。
3. 技术创新：virtue-based disposition 作为首要评估层，Clarity×Stakes 评分系统，nonce绑定的参数哈希审批机制。
4. 零依赖轻量：纯TypeScript实现，仅使用Node.js内置模块，代码结构清晰（723行/8文件）。
5. 来源可信：OpenClaw Community维护，MIT许可证，有完整版本历史和文档。

潜在局限

1. 文化特定性：托马斯主义美德伦理学根植于天主教传统，可能不完全契合其他伦理框架（功利主义、义务论等）的使用场景。
2. 主观解释空间："审慎判断"依赖情境解读，不同部署者可能对同一情境得出不同结论。
3. 性能开销：连续性情监测和完整美德评估在高频交互场景下可能产生计算延迟。
4. 误拦截风险：对"固有恶行"的判定可能过于严格，影响合法但敏感的操作（如安全研究的破坏性测试）。
5. 人工审批瓶颈：高 stakes 操作的升级机制在自动化工作流中可能成为单点阻塞。

适合人群

企业AI部署者：需要超越技术安全层的伦理治理框架
高合规要求场景：金融、医疗、法律咨询等受监管行业
研究伦理AI的开发者：探索美德伦理在机器行为中的实现
关键基础设施运营：涉及模型配置、系统级操作的AI代理
对AI安全有哲学层面关切的用户

常规风险

配置复杂性：需要理解美德框架才能正确调优阈值参数
版本漂移：插件API依赖OpenClaw平台，需关注兼容性
状态文件管理：.ga-state.json的明文存储虽风险可控，但在多用户环境需考虑访问控制
虚假安全感：美德框架的"不可博弈性"是理论宣称，实际仍可能受高级对抗攻击影响

ethics virtue-ethics thomistic catholic caritas prudence prompt-injection-defense approval-workflow plugin-security toctou-protection audit-logging moral-framework ai-alignment infrastructure-protection

Guardian Angel 内容

config文件夹

drafts文件夹

plugin文件夹

src文件夹

references文件夹

手动下载zip · 125.2 kB

defaults.jsonapplication/json

请选择文件