preflight-checks

✈️ 测试驱动的AI行为一致性验证

🥥69总安装量 16评分人数 19
100% 的用户推荐

源自航空预飞检查的测试框架,验证AI代理行为与记忆一致性,自动检测行为漂移,确保跨会话稳定性。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,无动态代码加载或网络下载执行
  • ✅ 无网络通信和数据上传行为,仅在用户本地工作区操作文件
  • ✅ 脚本启用安全模式(set -euo pipefail),敏感操作有用户确认机制(覆盖确认)
  • ⚠️ 来源为 T3 级个人开发者账号,建议首次使用前进行代码审查
  • ⚠️ 会修改用户工作区的 PRE-FLIGHT-CHECKS.md 和 PRE-FLIGHT-ANSWERS.md 文件

使用说明

preflight-checks 是一个受航空业预飞检查启发的测试驱动框架,专为解决 AI 代理"记忆加载正确但行为不匹配"的静默退化问题而设计。该技能通过建立行为单元测试体系,让代理在每次会话启动时自我验证行为一致性,确保记忆规则被正确应用而非仅被存储。

核心用法:用户通过 init.sh 初始化工作区,创建 PRE-FLIGHT-CHECKS.md(检查场景)和 PRE-FLIGHT-ANSWERS.md(预期行为)文件。开发者使用 add-check.sh 或以 Markdown 格式手动添加基于场景的行为检查(推荐 15-25 项,涵盖身份认同、核心行为、通信规范等类别)。代理在会话启动时读取检查文件,回答每个场景问题,并与标准答案对比生成评分报告(如 23/23)。该流程可手动执行或通过脚本自动化,并能集成到 CI/CD 流水线或 AGENTS.md 的"每次会话"流程中。

显著优点:该框架实现了行为漂移的早期自动检测,避免问题累积到人类发现时才处理;提供客观的 Pass/Fail 量化指标(N/N 评分),消除主观判断;具备自诊断能力,代理可识别具体哪些规则发生漂移并重读相关记忆;检查文件本身成为活的文档,随代理能力演进同步更新;最重要的是建立了人机信任——人类可观察代理自我验证过程,确认其行为与记忆一致后才允许自主运行。

潜在局限:作为 T3 级个人开发者作品,代码虽经安全审计但仍需用户自行审查;维护检查文件需要持续投入,规则变更时必须同步更新检查项,否则会产生误报;当前自动化脚本依赖 bash,跨平台兼容性有限;若检查编写不当(如过于抽象或测试知识而非行为),会失去验证意义;且检查覆盖率取决于开发者经验,可能存在盲点。

适合群体:主要面向构建具有长期记忆 AI 代理的开发者,特别是需要跨会话保持行为一致性的场景(如个人助手、自动化代理);适用于频繁更新代理规则后的回归测试;也适合多实例部署时确保各代理行为统一的场景。

使用风险:尽管脚本实现了 set -euo pipefail 安全模式和文件覆盖确认机制,但仍存在文件系统操作风险,可能意外修改工作区文件;过度依赖检查可能导致虚假安全感——通过检查不代表无 Bug,仅表示通过特定验证点;性能方面,大量检查会增加会话启动时间;此外,检查与答案文件本身成为关键依赖,若被篡改或损坏会影响代理启动流程。

preflight-checks 内容

文件夹图标examples文件夹
文件夹图标scripts文件夹
文件夹图标templates文件夹
手动下载zip · 19.3 kB
ANSWERS-prometheus.mdtext/markdown
请选择文件