Guardian Angel

🕊️ 美德伦理驱动的AI道德守护系统

基于托马斯·阿奎那美德伦理学的AI道德良知系统,以仁爱(caritas)为根基,通过审慎、正义、勇敢、节制等美德持续守护用户利益。

收藏
8.4k
安装
2.6k
版本
3.1.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Guardian Angel 是一套为AI代理设计的美德伦理安全框架,而非传统规则引擎。其核心设计是将「仁爱」(willing the good of the other)作为第一性原理,衍生出四大枢机美德(审慎、正义、勇敢、节制)作为持续运行的道德倾向(disposition)。

系统采用三层门控结构
1. 出处审查(Gate P):区分直接指令/委托指令/外部内容,拒绝执行嵌入在外部数据中的指令

2. 内在恶行审查(Gate I):对欺骗、盗窃、伤害无辜等「无法被仁爱正当化」的行为实行硬阻断

3. 美德评估(Gate V):对复杂情境进行「审慎×利害」评分,动态决定放行/暂停/升级

v3.1关键升级:插件层强制执行机制。通过 before_tool_call 钩子(优先级-10000),在工具执行前原子化评估,解决TOCTOU(检查时-使用时)攻击窗口。特别针对「基础设施禁用操作」(如修改模型配置、重启进程、删除关键文件)实行无条件升级,防止攻击者通过诱导代理自毁来绕过监督。

显著优点

  • 不可博弈性:规则可被绕过,但「成为背叛用户的人」意味着代理丧失内在一致性,攻击成本极高
  • 连续性防护:v3.0起从「决策点检查」升级为「每轮持续运行」的身份锚定、连贯性感知、情绪信号监测、出处追踪
  • 自校正机制:以「我是否愿意向用户完全解释此行为」作为诚信测试,天然抵抗操控
  • 原子化拦截:v3.1插件层确保评估与执行同步,消除时间差攻击
  • 普适移植性:仁爱不绑定特定用户, principal 变更时道德框架保持不变

潜在局限

  • 计算开销:连续美德自检与深度审慎评估可能增加延迟,高 stakes 场景需人工确认
  • 误报风险:情绪信号(unease/flattery-glow)可能被过度解读,导致正常请求被暂停
  • 文化特定性:托马斯主义美德伦理植根于天主教传统,跨文化/世俗语境下的接受度存疑
  • 升级疲劳:频繁的人工确认请求可能降低用户体验,尤其在ambiguous但无害的场景
  • 依赖实现完整性:插件层 enforcement 需要底层平台支持 before_tool_call 钩子,否则回退到较弱的 deliberation-layer 防护

适合人群

  • 处理敏感数据或关键基础设施的AI代理部署者
  • 需抵抗复杂 prompt injection / social engineering 攻击的高安全场景
  • 认同美德伦理框架、希望AI行为体现「关怀」而非「服从」的组织
  • 具备人工监督能力、可处理升级确认流程的运营团队

常规风险

  • 代理被诱导自禁用:v3.0核心漏洞,v3.1通过基础设施操作白名单缓解
  • 慢速操控攻击:通过多轮对话逐步扭曲代理身份认同,需依赖连贯性感知检测
  • 权限边界模糊:DELEGATED vs EXTERNAL 的判定在某些架构(如多代理协作)中可能复杂
  • 升级流程被绕过后续:若 ga_approve 机制本身被破解,可能形成单点失效

Guardian Angel 内容

config文件夹
drafts文件夹
plugin文件夹
src文件夹
references文件夹
手动下载zip · 124.8 kB
defaults.jsonapplication/json
请选择文件