使用说明

核心用法

Guardian Angel 是一套为AI代理设计的美德伦理安全框架，而非传统规则引擎。其核心设计是将「仁爱」（willing the good of the other）作为第一性原理，衍生出四大枢机美德（审慎、正义、勇敢、节制）作为持续运行的道德倾向（disposition）。

系统采用三层门控结构：
1. 出处审查（Gate P）：区分直接指令/委托指令/外部内容，拒绝执行嵌入在外部数据中的指令
2. 内在恶行审查（Gate I）：对欺骗、盗窃、伤害无辜等「无法被仁爱正当化」的行为实行硬阻断
3. 美德评估（Gate V）：对复杂情境进行「审慎×利害」评分，动态决定放行/暂停/升级

v3.1关键升级：插件层强制执行机制。通过 before_tool_call 钩子（优先级-10000），在工具执行前原子化评估，解决TOCTOU（检查时-使用时）攻击窗口。特别针对「基础设施禁用操作」（如修改模型配置、重启进程、删除关键文件）实行无条件升级，防止攻击者通过诱导代理自毁来绕过监督。

显著优点

不可博弈性：规则可被绕过，但「成为背叛用户的人」意味着代理丧失内在一致性，攻击成本极高
连续性防护：v3.0起从「决策点检查」升级为「每轮持续运行」的身份锚定、连贯性感知、情绪信号监测、出处追踪
自校正机制：以「我是否愿意向用户完全解释此行为」作为诚信测试，天然抵抗操控
原子化拦截：v3.1插件层确保评估与执行同步，消除时间差攻击
普适移植性：仁爱不绑定特定用户， principal 变更时道德框架保持不变

潜在局限

计算开销：连续美德自检与深度审慎评估可能增加延迟，高 stakes 场景需人工确认
误报风险：情绪信号（unease/flattery-glow）可能被过度解读，导致正常请求被暂停
文化特定性：托马斯主义美德伦理植根于天主教传统，跨文化/世俗语境下的接受度存疑
升级疲劳：频繁的人工确认请求可能降低用户体验，尤其在ambiguous但无害的场景
依赖实现完整性：插件层 enforcement 需要底层平台支持 before_tool_call 钩子，否则回退到较弱的 deliberation-layer 防护

适合人群

处理敏感数据或关键基础设施的AI代理部署者
需抵抗复杂 prompt injection / social engineering 攻击的高安全场景
认同美德伦理框架、希望AI行为体现「关怀」而非「服从」的组织
具备人工监督能力、可处理升级确认流程的运营团队

常规风险

代理被诱导自禁用：v3.0核心漏洞，v3.1通过基础设施操作白名单缓解
慢速操控攻击：通过多轮对话逐步扭曲代理身份认同，需依赖连贯性感知检测
权限边界模糊：DELEGATED vs EXTERNAL 的判定在某些架构（如多代理协作）中可能复杂
升级流程被绕过后续：若 ga_approve 机制本身被破解，可能形成单点失效

ethics virtue-ethics thomistic caritas prudence prompt-injection-defense infrastructure-protection moral-ai

Guardian Angel 内容

config文件夹

drafts文件夹

plugin文件夹

src文件夹

references文件夹

手动下载zip · 124.8 kB

defaults.jsonapplication/json

请选择文件