核心功能
skill-evaluator 是一款面向 Clawdbot 生态的专业技能审计工具,采用「自动化检测 + 人工评分」双轨模式,在技能发布前完成质量、可靠性与就绪度的全面评估。其评估框架融合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 交互设计八法则以及面向 AI Agent 的新型启发式指标,形成 8 大类别、25 项具体准则的评分体系。
自动化检测层
通过 eval-skill.py 脚本执行 6 类结构性检查:文件结构合规性、YAML frontmatter 完整性、描述质量、脚本语法、依赖审计及凭据扫描。支持 JSON 输出便于 CI/CD 集成,verbose 模式供深度调试。
人工评估层
依据 references/rubric.md 对 25 项准则逐项 0-4 分评分,涵盖:
- 功能适合性:完整性、正确性、适当性
- 可靠性:容错性、错误报告、可恢复性
- 性能/上下文:Token 成本、执行效率
- AI 可用性:可学习性、一致性、反馈、错误预防
- 人类可用性:可发现性、容错性
- 安全性:凭据管理、输入验证、数据安全
- 可维护性:模块化、可修改性、可测试性
- Agent 专用:触发精准度、渐进披露、可组合性、幂等性、逃生舱
评分解读与行动指南
| 分数段 | 结论 | 行动 |
|--------|------|------|
| 90-100 | 优秀 | 放心发布 |
| 80-89 | 良好 | 可发布,记录已知问题 |
| 70-79 | 可接受 | 修复 P0 阻塞项后发布 |
| 60-69 | 需改进 | 修复 P0+P1 后发布 |
| <60 | 未就绪 | 需重大重构 |
显著优点
1. 框架权威:直接引用 ISO 25010、OpenSSF 等工业标准,避免主观臆断
2. 量化决策:100 分制评分 + 三级优先级(P0/P1/P2)让发布决策有据可依
3. 双轨互补:自动化抓结构性问题,人工审设计质量,覆盖全面
4. 生态整合:输出 EVAL.md 标准化报告,便于版本追踪与团队协作
局限与注意事项
- 安全深度有限:基础安全扫描(凭据、注入)仅覆盖常见风险,高危场景需配合 SkillLens 进行专项审计
- 评分主观性:人工评分依赖评估者经验,建议多人交叉评审或建立校准样本
- 维护成本:25 项准则需持续跟进框架更新(如 OpenSSF 版本迭代)
- Python 依赖:自动化脚本需 Python 3.6+ 及 PyYAML,对纯 Node.js 环境不够友好
适用人群
- 技能开发者:自检代码质量,提前发现阻塞性问题
- 平台审核员:建立标准化准入门槛,降低生态风险
- 技术管理者:量化团队交付质量,追踪改进趋势
- 开源贡献者:为第三方技能提交客观评估报告
常规风险
| 风险类型 | 说明 | 缓解措施 |
|----------|------|----------|
| 误报漏报 | 自动化扫描无法识别逻辑漏洞 | 强制人工代码走读 |
| 评分漂移 | 不同评估者标准不一致 | 建立评分校准机制 |
| 工具依赖 | eval-skill.py 本身存在 bug | 版本锁定 + 回归测试 |
| 安全盲区 | 高级威胁(如供应链投毒)未覆盖 | 结合 SkillLens 等专业工具 |