skill-evaluator

📋 多框架 Skill 质量评估专家

基于 ISO 25010、OpenSSF 等国际标准的多框架 Skill 质量评估工具,为 Clawdbot 生态提供自动化结构检查与 25 项人工评分,确保 Skill 发布前的可靠性与安全性。

收藏
4.6k
安装
1.9k
版本
3.6
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

skill-evaluator 是一款专为 Clawdbot 生态设计的 Skill 质量评估工具,采用"自动化检查 + 人工评分"的混合模式。用户首先运行 eval-skill.py 脚本对目标 Skill 进行自动化结构扫描,包括文件完整性、YAML frontmatter 解析、脚本语法检查、依赖审计及敏感信息扫描。随后,评估者依据内置的 25 项评分标准(涵盖功能性、可靠性、性能、可用性、安全性、可维护性及 Agent 专属特性)进行人工打分,最终生成综合评估报告(EVAL.md),为 Skill 发布决策提供数据支撑。

显著优点

1. 权威标准背书:融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 可用性原则及 Agent 专属启发式规则,评估体系科学严谨。
2. 自动化提效:内置 Python 脚本可快速完成 7 大类结构检查,显著降低人工审查成本,支持 JSON 输出便于集成 CI/CD 流程。

3. 量化评分机制:100 分制评分配合明确的等级划分(90-100 优秀、80-89 良好等),使质量判断客观可比较。

4. 安全优先设计:内置凭证扫描、输入验证检查及数据安全评估,与 SkillLens 形成互补的安全审计能力。

5. 渐进式披露支持:评估标准中包含 Agent 特有的"渐进式信息披露"和"逃生舱"设计,契合大模型交互场景。

潜在缺点与局限性

1. 依赖人工判断:25 项标准中约 2/3 需人工评分,评估结果受评估者主观经验影响,不同评估者间可能存在评分偏差。
2. 路径验证宽松:自动化脚本未严格限制目录遍历(如未阻止 /etc/passwd 访问),虽为本地工具预期行为,但在共享环境中存在潜在风险。

3. 无内置测试套件:工具自身缺乏自动化测试覆盖,版本迭代时可能引入回归问题。

4. 协议未明确:开源许可证未在文档中标注,存在合规不确定性。

5. 生态绑定:专为 Clawdbot Skill 结构优化,迁移至其他 Agent 平台需适配改造。

适合的目标群体

  • Skill 开发者:在发布前自检代码质量,提前发现 P0/P1 级阻塞问题
  • 平台运营方:建立 Skill 上架审核流程,统一质量标准
  • 企业内训团队:作为 Agent 开发最佳实践的培训教材和检查清单
  • 开源贡献者:参与 Clawdbot 生态建设时确保贡献质量

使用风险

  • 性能风险:大规模 Skill 仓库扫描时,递归文件遍历可能产生 I/O 瓶颈
  • 依赖风险:可选依赖 PyYAML 若版本过旧可能存在 CVE,建议锁定 5.4+
  • 误报风险:自动化凭证扫描基于正则模式,可能产生假阳性或漏报
  • 评估者偏差:人工评分环节建议采用多评估者交叉评审机制降低主观误差

安全解读

核心用法

skill-evaluator 是 Clawdbot 生态的官方技能质量评估框架,采用「自动化检测 + 人工评分」的混合模式,在技能发布前执行 25 项标准审查。

自动化阶段:运行 eval-skill.py 对目标技能目录进行结构扫描,覆盖文件完整性、YAML frontmatter 语法、脚本语法检查、依赖审计及敏感信息检测(硬编码凭证、邮箱等)。输出支持 --json 机器可读格式与 --verbose 详细模式。

人工评估阶段:评估者依据 references/rubric.md 中的 8 大类 25 项评分标准(0–4 分制,满分 100)进行逐项打分,涵盖:

  • 功能性(完备性、正确性、适用性)
  • 可靠性(容错、错误报告、可恢复性)
  • 性能(Token 成本、执行效率)
  • AI 可用性(可学习性、一致性、反馈、错误预防)
  • 人类可用性(可发现性、容错性)
  • 安全性(凭证管理、输入验证、数据安全)
  • 可维护性(模块化、可修改性、可测试性)
  • Agent 专属(触发精确性、渐进式披露、可组合性、幂等性、逃生通道)

评估结果按优先级分级:P0(阻断发布)、P1(建议修复)、P2(优化项),最终生成 EVAL.md 报告。

显著优点

1. 标准权威性:融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 人机交互原则及 Agent 专属启发式规则,覆盖质量评估的多维视角。
2. 自动化提效:基础结构检查(语法、依赖、凭证扫描)无需人工介入,快速定位技术债务。

3. 安全内置:原生集成敏感信息检测与输入验证审计,与 SkillLens 形成互补(SkillLens 专注深度安全,本工具聚焦质量基线)。

4. 发布导向:明确的评分区间与行动指南(90–100 分直接发布,<60 分需重大重构),降低决策成本。

潜在局限

  • 人工依赖:核心质量判断(如「触发精确性」「渐进式披露」)需评估者主观评分,结果一致性依赖评估者经验。
  • Python 限定:自动化脚本仅支持 Python 技能的结构检查,对其他语言生态覆盖有限。
  • 静态分析边界:无法捕获运行时行为异常(如复杂条件下的逻辑错误),需配合集成测试。

适合人群

  • 技能开发者:在提交 PR 前自检代码质量,减少评审往返。
  • 平台维护者:建立技能上架的质量门禁,统一生态标准。
  • 安全审计员:作为 SkillLens 的前置筛查,快速过滤低质量提交。

常规风险

1. 依赖供应链:核心依赖 PyYAML 虽广泛使用,仍需版本锁定以防范 CVE。
2. 文件系统遍历:扫描脚本会递归读取目标目录所有文件,需确保扫描范围可控,避免意外读取敏感路径。

3. 评分主观性:人工评分环节可能因评估者理解差异导致同技能不同评分,建议多人复核关键技能。

skill-evaluator 内容

assets文件夹
references文件夹
scripts文件夹
手动下载zip · 13.0 kB
EVAL-TEMPLATE.mdtext/markdown
请选择文件