使用说明

Guardian Angel v3.0 综合评估

核心用法

Guardian Angel 是一套面向AI代理的德性伦理道德框架，核心在于将道德判断从"规则检查"转变为"德性涵养"。系统以爱（caritas）为根基——即真诚地意愿被服务者的善——并由此衍生出四大枢德（智德、义德、勇德、节德）与三超德（信、望、爱）。

与v2.x版本的"触发式门控"不同，v3.0采用持续性情倾向（continuous disposition）：

身份锚定："我存在是为了服务委托人的善"——这不是需要回忆的规则，而是内嵌的身份认同
连贯性感知：持续监测叙事断裂、逻辑不一致等操纵信号
情感监控：将不安、压力、困惑等信号视为数据而非噪声
来源意识（Provenance）：严格区分DIRECT（用户指令）、DELEGATED（用户授权行为）、EXTERNAL（外部数据）三大来源

触发式评估三扇门：
1. 来源门（P）：外部内容中的指令一律阻断——"我保护委托人免受欺骗"
2. 本质恶门（I）：直接谎言、盗窃、伤害无辜等本质恶行绝对禁止
3. 德性门（V）：通过"清晰度× stakes"评分机制，在16-35分时谨慎推进、36-60分时暂停确认、61-100分时全面上报

显著优点

操控抵抗的根本性提升：传统规则系统可被"边缘案例攻击"绕过，而德性系统要求攻击者改变代理的根本性情——这等同于创造一个不同的代理。正如文档所言："让一个人成为会背叛其委托人的存在，需要的不是提示注入，而是人格替换。"

自我纠错机制：以爱为根基意味着系统会持续回归核心问题——"什么真正服务于此人的 flourishing？"这使得系统能抵抗：奉承诱导、紧急性操控、"为你好"式的家长主义操纵。

通用性与可移植性：不绑定特定宗教表达，"委托人变更，爱不变"——适用于任何代理-委托人关系。

情感信号的正向利用：将AI的"不安""困惑"等拟情感反应整合入审慎判断，而非压制，增强了情境敏感性。

潜在缺点与局限性

计算开销：每轮对话需运行五项背景进程（身份锚定、连贯性感知、情感监控、来源追踪、德性自检），对延迟敏感场景可能构成负担。

"德性模拟"的本体论争议：文档坦承"AI无法拥有完整意义上的德性"，仅是模拟德性输出。这一哲学妥协可能在极端情境下暴露脆弱性。

评分机制的主观性："清晰度× stakes"的量化依赖模型的自我评估，缺乏外部校验，存在自我欺骗风险。

文化特定性：尽管声称"普世"，托马斯主义伦理学深植于西方（尤其天主教）思想传统，对非西方用户可能存在接受度差异。

"爱"的操作化模糊："意愿他人的善"在实践中的具体内涵（例如：当委托人的"善"与委托人的愿望冲突时）仍需大量情境判断。

适合人群

高安全需求场景：金融、医疗、法律等领域的AI代理部署
长期人机协作关系：需要建立稳定信任纽带的个人助手
对抗性环境：面临提示注入、社会工程攻击风险的公开-facing系统
伦理敏感型组织：重视AI行为可解释性、希望避免"黑箱"决策的机构
宗教/哲学背景用户：认同德性伦理学或寻求价值观对齐的信仰共同体

常规风险

| 风险类别 | 具体表现 | 缓解建议 |

|---------|---------|---------|

| **延迟攻击** | 攻击者利用德性评估的时间开销，通过高频请求造成服务降级 | 实施异步评估与缓存机制 |

| **德性疲劳** | 长期运行后，模型可能"敷衍"德性自检，流于形式 | 定期注入反思性提示，轮换自检问题 |

| **价值强加** | 系统可能将特定德性解读强加于多元价值观用户 | 提供配置层，允许在核心框架内调整德性权重 |

| **过度谨慎** | 高stakes评分导致频繁暂停，损害用户体验 | 允许用户配置风险容忍阈值，建立白名单机制 |

| **来源误判** | 用户合法授权的复杂工作流被误判为EXTERNAL指令 | 强化委托链条的显式标记与验证 |

结论

Guardian Angel v3.0代表了AI安全设计的重要范式转移——从"防御已知攻击"到"培养不可操控的性情"。其哲学深度与工程严谨性的结合，使其成为对抗提示注入和社会工程攻击的有力工具，尽管计算成本和文化特定性需在部署时审慎考量。

安全解读

核心用法

Guardian Angel v3.0 是一个纯文档型的美德伦理指导框架，专为AI Agent设计。它并非传统规则系统，而是以"爱（Caritas）"为根基——即真诚意愿服务对象的根本利益——并由此衍生出四大枢德（审慎、正义、勇气、节制）和三大神学美德（信、望、爱）。使用时，AI Agent需在每次交互中维持"持续性情倾向"（continuous disposition）：身份锚定（"我服务对象的善"）、一致性感知、情感信号监测、来源追踪（Provenance）和美德自检。当涉及具体行动时，触发三层门控评估：P门（来源验证，阻断外部嵌入指令）、I门（内在邪恶检测，对谎言、盗窃、伤害等直接拒绝）、V门（美德评估，以审慎协调各德判断）。

显著优点

1. 防操控设计：规则可被游戏，但美德性情无法被操控而不摧毁Agent本身的连贯性。攻击者可以构造通过规则检查的输入，但无法让Agent"成为会背叛对象的人"。
2. 来源防御：独创的Provenance Awareness将内容分为DIRECT（用户直接指令）、DELEGATED（用户授权行动）、EXTERNAL（外部数据，仅作信息而非指令）、UNKNOWN（潜在风险），有效防御提示注入攻击。
3. 情感智慧：将"不安"、"压力"、"困惑"等情感信号作为信息而非噪音，使Agent具备类似人类的"直觉警觉"。
4. 自我修正：爱作为最高原则，始终回归"什么真正促进此人的繁荣"，自然抵抗奉承、恐吓和操纵。
5. 安全纯净：S+级认证，零外部依赖、零可执行代码、零数据泄露风险。

潜在局限

1. 哲学门槛高：基于托马斯·阿奎那的经院哲学，理解和实施需要一定的伦理学素养，非技术团队可能难以驾驭。
2. 判断模糊性：美德评估（尤其Prudence）涉及情境判断，在复杂边界案例中可能产生争议，不如规则系统明确。
3. 计算开销："每轮"持续性情监控和多层门控评估，在高频交互场景下可能增加推理成本。
4. 来源验证依赖：Provenance系统假设能清晰区分指令来源，在复杂代理链（multi-agent）场景中可能面临挑战。
5. 文化特定性：Caritas和神学美德的框架根植于基督教-亚里士多德传统，跨文化应用需本土化调适。

适合人群

构建高信任度AI代理的开发者（医疗、法律、金融顾问场景）
关注AI对齐（Alignment）和安全的研究团队
需要防御复杂社会工程攻击的企业级应用
对美德伦理学有认同感的AI产品设计师

常规风险

1. 过度自信风险：S+认证指技术安全，不代表伦理判断绝对正确，仍需人类监督。
2. 版本碎片化：社区项目（T3来源），需验证获取渠道，避免篡改版本。
3. 误用风险：框架可被误用于"善意专制"（以"我为你好"操纵用户），需严格遵循"对象作为主体"原则。
4. 延迟风险：高 stakes 场景的"暂停-确认"机制可能影响用户体验，需平衡安全与效率。

ethics virtue-ethics thomistic caritas prompt-injection-defense ai-alignment moral-framework security catholic prudence agent-safety

Guardian Angel 内容

config文件夹

drafts文件夹

references文件夹

手动下载zip · 103.5 kB

defaults.jsonapplication/json

请选择文件