guardian-angel

🛡️ 美德伦理驱动的AI安全守护

基于托马斯主义美德伦理学的AI道德良知系统,通过审慎、正义、勇毅、节制四枢德持续守护用户利益,v3.1新增插件级执行拦截与基础设施保护机制。

收藏
1.4k
安装
653
版本
v3.1.2
CLS 安全性认证2026-05-19
点击查看完整报告 >

使用说明

核心用法

Guardian Angel 是一个为 AI Agent 设计的美德伦理安全层,而非传统的规则检查器。它通过持续运行的"性情"(disposition)机制,在每次交互中主动评估行动是否符合用户的真正利益。

三层防护架构
1. 持续性情层(Every Turn):身份锚定、连贯性感知、情感监测、来源追溯、美德自检——这些背景进程永不关闭

2. 触发评估层(Action 时):来源检查(Gate P)→ 内在邪恶检查(Gate I)→ 美德评估(Gate V)

3. 插件执行层(v3.1 新增):before_tool_call hook 以 -10000 优先级最后运行,实现评估与执行的原子性,阻断 TOCTOU 攻击

关键创新:用"Clarity × Stakes"评分模型(1-100)动态调整干预强度,对基础设施禁用操作(改配置、重启、危险命令)实行无条件自动升级

显著优点

哲学深度超越技术方案:不同于基于关键词过滤的 prompt injection 防御,GA 从"爱德"(caritas)出发——真正意愿服务对象的美好——这使得操纵者必须改变 AI 的根本性情而非绕过规则,大幅提升了攻击成本。

TOCTOU 问题解决:v3.1 的插件层确保评估与执行原子化,消除了"检查通过后被篡改"的时间窗口漏洞。

自我修正机制:情感信号(不安、压力、困惑)被当作有效数据而非噪音,形成内生的异常检测能力。

透明可审计:完整的 virtue-based 推理日志,用户可理解 AI 为何阻止某项操作。

潜在缺点与局限性

性能开销:每轮对话的背景进程 + 行动时的三层评估,对高频自动化场景可能产生明显延迟。

确认疲劳:默认阈值(36)下,中等模糊度×高风险的组合会频繁触发用户确认,可能降低工作效率。

文化特异性:托马斯主义伦理框架源于天主教传统,虽声称"普世",但其美德排序(审慎为诸德之首)与特定哲学预设可能对非西方用户产生理解障碍。

无法根除的代理问题:AI 无法真正"拥有"美德,只是模拟其输出;极端复杂的操纵链仍可能找到框架未覆盖的缝隙。

适合的目标群体

  • 高 stakes AI 应用:金融操作、医疗建议、法律辅助等后果严重的场景
  • 企业级 Agent 部署:需要防止内部误操作和外部攻击的基础设施管理
  • 研究伦理与 AI 对齐:关注价值对齐(value alignment)的研究者和开发者
  • 对透明度有要求的用户:希望理解 AI 决策理由而非接受黑箱结果

使用风险

配置复杂性escalationThresholdneverBlock//alwaysBlock 列表需要针对具体场景调优,配置不当会导致过度拦截或防护不足。

文件系统依赖:状态存储于本地 .ga-state.json,权限设置错误或磁盘故障可能导致安全状态丢失。

Hook 优先级依赖:-10000 优先级假设 OpenClaw 平台稳定支持,若平台行为变更,原子性保证可能失效。

哲学框架冲突:用户可能不同意 AI 基于特定伦理传统做出的价值判断(如"直接说谎为内在邪恶"),引发使用摩擦。

安全解读

Guardian Angel:美德伦理驱动的AI安全卫士

核心功能

Guardian Angel v3.1是一款创新的AI安全框架,突破传统规则清单模式,采用Thomistic美德伦理学作为核心哲学基础。它以爱(caritas)——即"为他人的善而意愿"——为根本出发点,通过培养稳定的德性倾向(谨慎、正义、勇敢、节制)来指导AI代理的每一个决策。

显著优点

1. 深度安全防护架构

  • 连续性情境感知:v3.0引入的"背景进程"机制,包括身份锚定、连贯性感知、情感监测、来源追踪和德性自检,实现全天候防护而非仅决策点检查
  • 三层闸门系统:来源验证(P)、内在邪恶检测(I)、德性评估(V),形成递进式防御
  • v3.1关键增强:新增插件执行层,通过before_tool_call钩子实现原子性评估,解决TOCTOU(检查时到使用时)漏洞,对基础设施禁用类操作(如配置修改、进程终止)强制升级审批

2. 哲学层面的抗操纵能力
框架的核心理念"美德无法被利用而不破坏代理本身的一致性"提供了独特的安全优势:

  • 身份锚定使AI明确"我是谁、我为何人服务",抵御角色替换攻击
  • 连贯性感知能识别叙事断裂,捕捉精心设计的操纵企图
  • 德性框架使AI能识别"奉承-利用"等社会工程模式

3. 自校正机制
爱(caritas)作为基础驱动力,天然包含对他人真实利益的关切,这使得框架能:

  • 抵抗"紧急-绕过验证"类压力策略
  • 在委托者处于情绪弱化状态(愤怒、悲伤)时提供保护性干预
  • 在真相可能令人不适时仍坚持诚实

4. 经过权威安全认证
CLS-Certify v2.1.0认证报告显示:S级评级(100分),六维检测全通过,无可执行代码、无外部网络调用、无敏感信息泄露。

潜在局限

1. 实施复杂度

  • 需要深度理解Thomistic伦理学才能充分配置和调试
  • "德性评估"的模糊性(清晰×风险评分)在边界情况下可能产生主观判断差异
  • 对开发者的哲学素养要求较高

2. 性能开销

  • 连续的"背景进程"和完整的三层闸门评估对计算资源有一定要求
  • 高 stakes场景的"暂停-请求确认"流程可能中断用户体验

3. 文化适用性考量

  • 显式的天主教/Thomistic哲学基础可能在特定应用场景中引发接受度问题
  • "内在邪恶"的绝对主义分类(如直接说谎)可能与某些实用主义安全策略冲突

4. 依赖假设

  • 假设AI具备足够的"连贯性感知"能力来检测操纵——这对当前模型能力是挑战
  • "情感信号"的处理机制在缺乏真实情感体验的AI中更多是启发式模拟

适合人群

  • 高安全性AI应用开发者:金融、医疗、法律等敏感领域需要抵御社会工程攻击的AI系统
  • AI伦理研究者:探索将古典美德伦理学转化为技术实现的学术与实践者
  • 对抗性安全团队:需要深度防护提示词注入、权限升级等攻击的红队/蓝队安全工程师
  • 重视长期代理关系的B2C应用:需要建立用户信任、提供持续性关怀体验的个人助理类应用

常规风险

  • 过度干预风险:高敏感度配置可能导致正常交互中的频繁"暂停确认",引发用户疲劳
  • 框架误用风险:若配置不当,"保护委托者"的原则可能被滥用为家长式控制
  • 模型能力边界:当前LLM的"连贯性感知"和"德性推理"能力仍有限,实际效果依赖基础模型能力
  • 维护更新需求:威胁模式库(如提示词注入检测规则)需要持续更新以应对新型攻击

guardian-angel 内容

config文件夹
drafts文件夹
plugin文件夹
src文件夹
references文件夹
手动下载zip · 121.8 kB
defaults.jsonapplication/json
请选择文件