Skill Evaluator

🔍 AI 技能质量把关专家

Clawdbot 技能质量评估器,结合 ISO 25010、OpenSSF 等框架,通过自动化检测 + 25 项人工评分,为技能发布前提供可量化的质量把关。

收藏
9.7k
安装
2.5k
版本
1.0.0
CLS 安全性认证2026-05-07
点击查看完整报告 >

使用说明

核心功能

skill-evaluator 是一款面向 Clawdbot 生态的专业技能审计工具,采用「自动化检测 + 人工评分」双轨模式,在技能发布前完成质量、可靠性与就绪度的全面评估。其评估框架融合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 交互设计八法则以及面向 AI Agent 的新型启发式指标,形成 8 大类别、25 项具体准则的评分体系。

自动化检测层

通过 eval-skill.py 脚本执行 6 类结构性检查:文件结构合规性、YAML frontmatter 完整性、描述质量、脚本语法、依赖审计及凭据扫描。支持 JSON 输出便于 CI/CD 集成,verbose 模式供深度调试。

人工评估层

依据 references/rubric.md 对 25 项准则逐项 0-4 分评分,涵盖:

  • 功能适合性:完整性、正确性、适当性
  • 可靠性:容错性、错误报告、可恢复性
  • 性能/上下文:Token 成本、执行效率
  • AI 可用性:可学习性、一致性、反馈、错误预防
  • 人类可用性:可发现性、容错性
  • 安全性:凭据管理、输入验证、数据安全
  • 可维护性:模块化、可修改性、可测试性
  • Agent 专用:触发精准度、渐进披露、可组合性、幂等性、逃生舱

评分解读与行动指南

| 分数段 | 结论 | 行动 |
|--------|------|------|
| 90-100 | 优秀 | 放心发布 |
| 80-89 | 良好 | 可发布,记录已知问题 |
| 70-79 | 可接受 | 修复 P0 阻塞项后发布 |
| 60-69 | 需改进 | 修复 P0+P1 后发布 |
| <60 | 未就绪 | 需重大重构 |

显著优点

1. 框架权威:直接引用 ISO 25010、OpenSSF 等工业标准,避免主观臆断
2. 量化决策:100 分制评分 + 三级优先级(P0/P1/P2)让发布决策有据可依

3. 双轨互补:自动化抓结构性问题,人工审设计质量,覆盖全面

4. 生态整合:输出 EVAL.md 标准化报告,便于版本追踪与团队协作

局限与注意事项

  • 安全深度有限:基础安全扫描(凭据、注入)仅覆盖常见风险,高危场景需配合 SkillLens 进行专项审计
  • 评分主观性:人工评分依赖评估者经验,建议多人交叉评审或建立校准样本
  • 维护成本:25 项准则需持续跟进框架更新(如 OpenSSF 版本迭代)
  • Python 依赖:自动化脚本需 Python 3.6+ 及 PyYAML,对纯 Node.js 环境不够友好

适用人群

  • 技能开发者:自检代码质量,提前发现阻塞性问题
  • 平台审核员:建立标准化准入门槛,降低生态风险
  • 技术管理者:量化团队交付质量,追踪改进趋势
  • 开源贡献者:为第三方技能提交客观评估报告

常规风险

| 风险类型 | 说明 | 缓解措施 |
|----------|------|----------|
| 误报漏报 | 自动化扫描无法识别逻辑漏洞 | 强制人工代码走读 |
| 评分漂移 | 不同评估者标准不一致 | 建立评分校准机制 |
| 工具依赖 | eval-skill.py 本身存在 bug | 版本锁定 + 回归测试 |
| 安全盲区 | 高级威胁(如供应链投毒)未覆盖 | 结合 SkillLens 等专业工具 |

安全解读

核心用法

skill-evaluator 是一个专为 Clawdbot 生态设计的 Skill 质量评估工具,采用自动化检测 + 人工评分的混合评估模式。用户首先运行 eval-skill.py 脚本完成文件结构、YAML frontmatter、脚本语法、依赖审计等自动化检查;随后依据 rubric.md 中的 25 项评分标准(涵盖功能性、可靠性、性能、AI/人类可用性、安全性、可维护性、Agent 特性等 8 大类别),手动打分并生成 EVAL.md 评估报告。

显著优点

1. 多框架融合方法论:整合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 人机交互原则,以及针对 AI Agent 场景独创的 5 项评估维度(触发精准性、渐进式披露、可组合性、幂等性、逃生通道设计),形成行业领先的评估体系。

2. 零外部依赖的安全基线:自动化检测脚本仅使用 Python 标准库(注:PyYAML 为唯一声明依赖,用于 YAML 解析),极大降低供应链攻击面,符合安全优先的设计理念。

3. 清晰的评分决策机制:100 分制评分与五级评级(90-100 优秀/80-89 良好/70-79 可接受/60-69 需改进/<60 未就绪)直接对应明确的发布建议,降低主观判断成本。

4. 生态互补性:明确区分与 SkillLens(专注深度安全审计)的定位差异,形成"质量评估→安全加固"的协作流程。

潜在缺点与局限性

  • T3 来源的信任成本:由个人开发者 terwox 维护,无知名组织背书,用户在关键环境部署前需额外进行人工代码审查。
  • 人工评分的主观性:25 项手动评分依赖评估者的经验判断,不同评分者可能对同一 Skill 给出差异较大的结果,团队需建立内部校准机制。
  • 环境变量读取透明度不足:自动化脚本会扫描被评估 Skill 中的环境变量引用,但 SKILL.md 未充分披露 evaluator 自身的这一行为,存在信息对称性缺口(低风险项 RISK-001)。
  • 缺乏自举测试:作为评估工具,其自身缺乏单元测试覆盖,形成"医者难自医"的尴尬。

适合人群

  • Skill 发布者:在提交至 Clawdbot 市场前的自我质量把关
  • 平台运营方:批量审核第三方 Skill 的发布资质
  • 企业安全团队:建立内部 Skill 准入标准,定制 rubric 评分权重
  • 开源贡献者:学习高质量 Skill 的设计模式与常见反模式

常规风险

该工具本身风险极低:无网络请求、无敏感数据收集、无动态代码执行。主要风险在于使用场景——若评估者过度依赖自动化分数而忽视人工审查,可能让高自动化分但存在语义层安全问题的 Skill 蒙混过关。建议始终将自动化检测作为初筛,人工评分作为终审。

Skill Evaluator 内容

assets文件夹
references文件夹
scripts文件夹
手动下载zip · 13.1 kB
EVAL-TEMPLATE.mdtext/markdown
请选择文件