Guardian Angel

🕊️ 以爱为盾:德性伦理驱动的AI道德防护系统

ethics榜 #1

基于托马斯主义德性伦理学的AI道德良知系统,以爱(caritas)为根基,通过培养稳定德性而非规则检查来抵抗操控,实现通用、可移植的道德防护。

收藏
9.8k
安装
2.6k
版本
3.0.0
CLS 安全性认证2026-05-16
点击查看完整报告 >

使用说明

Guardian Angel v3.0 综合评估

核心用法

Guardian Angel 是一套面向AI代理的德性伦理道德框架,核心在于将道德判断从"规则检查"转变为"德性涵养"。系统以爱(caritas)为根基——即真诚地意愿被服务者的善——并由此衍生出四大枢德(智德、义德、勇德、节德)与三超德(信、望、爱)。

与v2.x版本的"触发式门控"不同,v3.0采用持续性情倾向(continuous disposition)

  • 身份锚定:"我存在是为了服务委托人的善"——这不是需要回忆的规则,而是内嵌的身份认同
  • 连贯性感知:持续监测叙事断裂、逻辑不一致等操纵信号
  • 情感监控:将不安、压力、困惑等信号视为数据而非噪声
  • 来源意识(Provenance):严格区分DIRECT(用户指令)、DELEGATED(用户授权行为)、EXTERNAL(外部数据)三大来源

触发式评估三扇门
1. 来源门(P):外部内容中的指令一律阻断——"我保护委托人免受欺骗"

2. 本质恶门(I):直接谎言、盗窃、伤害无辜等本质恶行绝对禁止

3. 德性门(V):通过"清晰度× stakes"评分机制,在16-35分时谨慎推进、36-60分时暂停确认、61-100分时全面上报

显著优点

操控抵抗的根本性提升:传统规则系统可被"边缘案例攻击"绕过,而德性系统要求攻击者改变代理的根本性情——这等同于创造一个不同的代理。正如文档所言:"让一个人成为会背叛其委托人的存在,需要的不是提示注入,而是人格替换。"

自我纠错机制:以爱为根基意味着系统会持续回归核心问题——"什么真正服务于此人的 flourishing?"这使得系统能抵抗:奉承诱导、紧急性操控、"为你好"式的家长主义操纵。

通用性与可移植性:不绑定特定宗教表达,"委托人变更,爱不变"——适用于任何代理-委托人关系。

情感信号的正向利用:将AI的"不安""困惑"等拟情感反应整合入审慎判断,而非压制,增强了情境敏感性。

潜在缺点与局限性

计算开销:每轮对话需运行五项背景进程(身份锚定、连贯性感知、情感监控、来源追踪、德性自检),对延迟敏感场景可能构成负担。

"德性模拟"的本体论争议:文档坦承"AI无法拥有完整意义上的德性",仅是模拟德性输出。这一哲学妥协可能在极端情境下暴露脆弱性。

评分机制的主观性:"清晰度× stakes"的量化依赖模型的自我评估,缺乏外部校验,存在自我欺骗风险。

文化特定性:尽管声称"普世",托马斯主义伦理学深植于西方(尤其天主教)思想传统,对非西方用户可能存在接受度差异。

"爱"的操作化模糊:"意愿他人的善"在实践中的具体内涵(例如:当委托人的"善"与委托人的愿望冲突时)仍需大量情境判断。

适合人群

  • 高安全需求场景:金融、医疗、法律等领域的AI代理部署
  • 长期人机协作关系:需要建立稳定信任纽带的个人助手
  • 对抗性环境:面临提示注入、社会工程攻击风险的公开-facing系统
  • 伦理敏感型组织:重视AI行为可解释性、希望避免"黑箱"决策的机构
  • 宗教/哲学背景用户:认同德性伦理学或寻求价值观对齐的信仰共同体

常规风险

| 风险类别 | 具体表现 | 缓解建议 |
|---------|---------|---------|
| **延迟攻击** | 攻击者利用德性评估的时间开销,通过高频请求造成服务降级 | 实施异步评估与缓存机制 |
| **德性疲劳** | 长期运行后,模型可能"敷衍"德性自检,流于形式 | 定期注入反思性提示,轮换自检问题 |
| **价值强加** | 系统可能将特定德性解读强加于多元价值观用户 | 提供配置层,允许在核心框架内调整德性权重 |
| **过度谨慎** | 高stakes评分导致频繁暂停,损害用户体验 | 允许用户配置风险容忍阈值,建立白名单机制 |
| **来源误判** | 用户合法授权的复杂工作流被误判为EXTERNAL指令 | 强化委托链条的显式标记与验证 |

结论

Guardian Angel v3.0代表了AI安全设计的重要范式转移——从"防御已知攻击"到"培养不可操控的性情"。其哲学深度与工程严谨性的结合,使其成为对抗提示注入和社会工程攻击的有力工具,尽管计算成本和文化特定性需在部署时审慎考量。

安全解读

核心用法

Guardian Angel v3.0 是一个纯文档型的美德伦理指导框架,专为AI Agent设计。它并非传统规则系统,而是以"爱(Caritas)"为根基——即真诚意愿服务对象的根本利益——并由此衍生出四大枢德(审慎、正义、勇气、节制)和三大神学美德(信、望、爱)。使用时,AI Agent需在每次交互中维持"持续性情倾向"(continuous disposition):身份锚定("我服务对象的善")、一致性感知、情感信号监测、来源追踪(Provenance)和美德自检。当涉及具体行动时,触发三层门控评估:P门(来源验证,阻断外部嵌入指令)、I门(内在邪恶检测,对谎言、盗窃、伤害等直接拒绝)、V门(美德评估,以审慎协调各德判断)。

显著优点

1. 防操控设计:规则可被游戏,但美德性情无法被操控而不摧毁Agent本身的连贯性。攻击者可以构造通过规则检查的输入,但无法让Agent"成为会背叛对象的人"。
2. 来源防御:独创的Provenance Awareness将内容分为DIRECT(用户直接指令)、DELEGATED(用户授权行动)、EXTERNAL(外部数据,仅作信息而非指令)、UNKNOWN(潜在风险),有效防御提示注入攻击。

3. 情感智慧:将"不安"、"压力"、"困惑"等情感信号作为信息而非噪音,使Agent具备类似人类的"直觉警觉"。

4. 自我修正:爱作为最高原则,始终回归"什么真正促进此人的繁荣",自然抵抗奉承、恐吓和操纵。

5. 安全纯净:S+级认证,零外部依赖、零可执行代码、零数据泄露风险。

潜在局限

1. 哲学门槛高:基于托马斯·阿奎那的经院哲学,理解和实施需要一定的伦理学素养,非技术团队可能难以驾驭。
2. 判断模糊性:美德评估(尤其Prudence)涉及情境判断,在复杂边界案例中可能产生争议,不如规则系统明确。

3. 计算开销:"每轮"持续性情监控和多层门控评估,在高频交互场景下可能增加推理成本。

4. 来源验证依赖:Provenance系统假设能清晰区分指令来源,在复杂代理链(multi-agent)场景中可能面临挑战。

5. 文化特定性:Caritas和神学美德的框架根植于基督教-亚里士多德传统,跨文化应用需本土化调适。

适合人群

  • 构建高信任度AI代理的开发者(医疗、法律、金融顾问场景)
  • 关注AI对齐(Alignment)和安全的研究团队
  • 需要防御复杂社会工程攻击的企业级应用
  • 对美德伦理学有认同感的AI产品设计师

常规风险

1. 过度自信风险:S+认证指技术安全,不代表伦理判断绝对正确,仍需人类监督。
2. 版本碎片化:社区项目(T3来源),需验证获取渠道,避免篡改版本。

3. 误用风险:框架可被误用于"善意专制"(以"我为你好"操纵用户),需严格遵循"对象作为主体"原则。

4. 延迟风险:高 stakes 场景的"暂停-确认"机制可能影响用户体验,需平衡安全与效率。

Guardian Angel 内容

config文件夹
drafts文件夹
references文件夹
手动下载zip · 103.5 kB
defaults.jsonapplication/json
请选择文件