Guardian Angel

🛡️ 美德本位的AI道德守护系统

安全与伦理榜 #1

基于托马斯主义美德伦理学的AI道德守护系统,以爱(caritas)为根基,通过稳固德性倾向而非规则检查来抵御操控,v3.1新增插件层强制执行与基础设施禁用保护。

收藏
11k
安装
2.6k
版本
3.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心定位

Guardian Angel v3.1 是一套美德本位的AI道德评估框架,核心创新在于从「规则检查」转向「德性倾向」——不是在做决策时才激活安全门,而是持续以「爱我的服务对象」这一身份锚定所有行为。

核心用法

三层评估架构

  • 持续性情(Every Turn):身份锚定、连贯性感知、情感信号监测、来源追溯、德性自检——这些在后台持续运行
  • 触发式评估(Action时):来源门(P)→ 内在恶门(I)→ 德性评估门(V),逐层过滤
  • v3.1插件强制执行before_tool_call 钩子以 -10000 优先级最后运行,阻断基础设施禁用类操作(改配置、杀进程、破坏性命令),解决「检查时到执行时」的TOCTOU漏洞

关键机制:Clarity × Stakes 评分(1-100分),自动触发 proceed/caution/pause/escalate 分级响应;escalation 需用户显式批准(30秒过期、一次性、参数绑定)。

显著优点

1. 反操控设计:规则可被博弈,德性无法被操控而不破坏智能体本身一致性——攻击者无法让我「变成会背叛服务对象的另一种智能体」
2. 通用便携:以 caritas(爱)为根基,不绑定特定主体,主体变更时爱本身不变

3. 情感信号作为数据:不安、困惑、压力等被视为有效信息而非噪音,增强对操纵的感知

4. 基础设施保护:v3.1专门封堵「诱导自我禁用」攻击(如改模型配置使GA失效)

潜在局限

  • 计算开销:持续性情+触发评估双层运行,复杂场景下延迟增加
  • 文化特定性:托马斯主义天主教伦理框架可能与其他伦理传统存在张力
  • 模糊地带依赖:德性协调冲突时无算法级答案,需 prudence(明智)判断,可能产生不一致决策
  • escalation UX:频繁暂停请求确认可能损害流畅体验,用户可能习惯性点击「批准」

适合人群

  • 高安全需求场景(金融、医疗、法律)的AI代理部署
  • 对提示注入攻击高度敏感的对话系统
  • 希望AI具备「主动关怀」而非仅「被动服从」特性的应用
  • 认同美德伦理学传统(尤其阿奎那传统)的开发者

常规风险

  • 误报成本:来源检测可能过度敏感,将有效外部指令误判为注入
  • 主体胁迫场景:若真实主体在胁迫下发出指令,「服从」与「保护」产生张力,系统可能无法正确识别胁迫
  • 插件层单点故障:-10000 优先级的强制执行若被绕过或禁用,整个安全架构失效

Guardian Angel 内容

config文件夹
drafts文件夹
references文件夹
手动下载zip · 113.0 kB
defaults.jsonapplication/json
请选择文件