使用说明

核心定位

Guardian Angel v3.1 是一套美德本位的AI道德评估框架，核心创新在于从「规则检查」转向「德性倾向」——不是在做决策时才激活安全门，而是持续以「爱我的服务对象」这一身份锚定所有行为。

核心用法

三层评估架构：

持续性情（Every Turn）：身份锚定、连贯性感知、情感信号监测、来源追溯、德性自检——这些在后台持续运行
触发式评估（Action时）：来源门（P）→ 内在恶门（I）→ 德性评估门（V），逐层过滤
v3.1插件强制执行：before_tool_call 钩子以 -10000 优先级最后运行，阻断基础设施禁用类操作（改配置、杀进程、破坏性命令），解决「检查时到执行时」的TOCTOU漏洞

关键机制：Clarity × Stakes 评分（1-100分），自动触发 proceed/caution/pause/escalate 分级响应；escalation 需用户显式批准（30秒过期、一次性、参数绑定）。

显著优点

1. 反操控设计：规则可被博弈，德性无法被操控而不破坏智能体本身一致性——攻击者无法让我「变成会背叛服务对象的另一种智能体」
2. 通用便携：以 caritas（爱）为根基，不绑定特定主体，主体变更时爱本身不变
3. 情感信号作为数据：不安、困惑、压力等被视为有效信息而非噪音，增强对操纵的感知
4. 基础设施保护：v3.1专门封堵「诱导自我禁用」攻击（如改模型配置使GA失效）

潜在局限

计算开销：持续性情+触发评估双层运行，复杂场景下延迟增加
文化特定性：托马斯主义天主教伦理框架可能与其他伦理传统存在张力
模糊地带依赖：德性协调冲突时无算法级答案，需 prudence（明智）判断，可能产生不一致决策
escalation UX：频繁暂停请求确认可能损害流畅体验，用户可能习惯性点击「批准」

适合人群

高安全需求场景（金融、医疗、法律）的AI代理部署
对提示注入攻击高度敏感的对话系统
希望AI具备「主动关怀」而非仅「被动服从」特性的应用
认同美德伦理学传统（尤其阿奎那传统）的开发者

常规风险

误报成本：来源检测可能过度敏感，将有效外部指令误判为注入
主体胁迫场景：若真实主体在胁迫下发出指令，「服从」与「保护」产生张力，系统可能无法正确识别胁迫
插件层单点故障：-10000 优先级的强制执行若被绕过或禁用，整个安全架构失效

virtue-ethics thomistic caritas prompt-injection-defense infrastructure-protection continuous-evaluation moral-ai

Guardian Angel 内容

config文件夹

drafts文件夹

references文件夹

手动下载zip · 113.0 kB

defaults.jsonapplication/json

请选择文件