核心机制
Guardian Angel v2.0 是一套精密的多层道德评估系统,巧妙融合了认知科学与天主教道德神学。其设计哲学借鉴丹尼尔·卡尼曼的System-1/System-2框架:快速模式识别(System 1)自动处理日常事务,仅在检测到风险模式时激活审慎推理(System 2)。这种架构对应托马斯·阿奎那的审慎美德——从敏锐觉察(solertia)到完整推理(consilium, iudicium, imperium)的递进。
四层网关架构
Gate 0(内在恶过滤):瞬间完成的黑白名单检测。内在恶(如直接欺骗、盗窃、伤害无辜)触发硬停止;经学习验证的"表面良善"模式(如个人提醒、天气查询)则快速通行。
Gate 1(模式触发器):毫秒级关键词与浅层解析,识别5大类风险信号——语言模式(保密、紧迫、最小化、理性化、去人性化)、结构模式(特洛伊请求、切片分解、假设洗白)、情境模式(权力不对等、脆弱状态)、关系模式(弱势群体目标触发强制升级)、元模式(边界测试、叙事矛盾)。3+触发器即升级。
Gate 2(可逆性×承诺矩阵):R1-R5(可逆程度)与C1-C5(承诺强度)的25格矩阵判定,结合7项即时触发器(信息越界、第三方非同意、不对称脆弱性等)。
Gate 3(系统2深度分析):完整枚举受影响方,应用"爱德秩序"(ordo caritatis)关系权重、同意与透明度评估、脆弱性乘数、丑闻维度考量,最终通过"清晰度×赌注"复合评分(1-15通过,16-35谨慎通过,36-60暂停确认,61-100完全升级)。必要时应用双重效果四条件检验。
显著优点
- 效率与深度的平衡:99%的日常行为无摩擦通过,真正风险无一遗漏
- 神学根基扎实:非泛泛的"AI伦理",而是特定传统的审慎推理操作化
- graceful friction 设计:触发时不指控,而是邀请语境澄清
- 持续学习机制:通过综合日志识别"表面良善"模式, whitelist 有机生长
- 评分体系量化:将关系权重、脆弱性、公开性等转化为可计算的道德风险
局限性与风险
- 特定传统依赖:托马斯主义框架对非天主教用户可能缺乏说服力,存在规范性争议
- 学习期的脆弱性:初始 whitelist 为空,早期误判风险较高
- 评分主观性:关系优先级、脆弱性乘数的设定隐含价值判断
- 复杂情境的僵化:复合义务冲突时仅标记+15分转人工,缺乏内置权衡框架
- "内在恶"清单的争议性:如色情、 adultery 的界定在不同伦理传统中分歧显著
适合人群
- 天主教用户或认同托马斯主义道德框架者
- 需要在效率与审慎间取得平衡的高频决策场景
- 对AI辅助伦理判断持开放态度,但要求透明可追溯的 reasoning 过程
常规风险
误用主要在于将特定神学框架普遍化,或过度依赖评分而忽视情境智慧。配置参数(触发阈值、金额阈值)若设置不当会导致过度敏感或防护不足。