使用说明

核心功能

skill-evaluator 是一款面向 Clawdbot 生态的专业技能审计工具，采用「自动化检测 + 人工评分」双轨模式，在技能发布前完成质量、可靠性与就绪度的全面评估。其评估框架融合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 交互设计八法则以及面向 AI Agent 的新型启发式指标，形成 8 大类别、25 项具体准则的评分体系。

自动化检测层

通过 eval-skill.py 脚本执行 6 类结构性检查：文件结构合规性、YAML frontmatter 完整性、描述质量、脚本语法、依赖审计及凭据扫描。支持 JSON 输出便于 CI/CD 集成，verbose 模式供深度调试。

人工评估层

依据 references/rubric.md 对 25 项准则逐项 0-4 分评分，涵盖：

功能适合性：完整性、正确性、适当性
可靠性：容错性、错误报告、可恢复性
性能/上下文：Token 成本、执行效率
AI 可用性：可学习性、一致性、反馈、错误预防
人类可用性：可发现性、容错性
安全性：凭据管理、输入验证、数据安全
可维护性：模块化、可修改性、可测试性
Agent 专用：触发精准度、渐进披露、可组合性、幂等性、逃生舱

评分解读与行动指南

| 分数段 | 结论 | 行动 |

|--------|------|------|

| 90-100 | 优秀 | 放心发布 |

| 80-89 | 良好 | 可发布，记录已知问题 |

| 70-79 | 可接受 | 修复 P0 阻塞项后发布 |

| 60-69 | 需改进 | 修复 P0+P1 后发布 |

| <60 | 未就绪 | 需重大重构 |

显著优点

1. 框架权威：直接引用 ISO 25010、OpenSSF 等工业标准，避免主观臆断
2. 量化决策：100 分制评分 + 三级优先级（P0/P1/P2）让发布决策有据可依
3. 双轨互补：自动化抓结构性问题，人工审设计质量，覆盖全面
4. 生态整合：输出 EVAL.md 标准化报告，便于版本追踪与团队协作

局限与注意事项

安全深度有限：基础安全扫描（凭据、注入）仅覆盖常见风险，高危场景需配合 SkillLens 进行专项审计
评分主观性：人工评分依赖评估者经验，建议多人交叉评审或建立校准样本
维护成本：25 项准则需持续跟进框架更新（如 OpenSSF 版本迭代）
Python 依赖：自动化脚本需 Python 3.6+ 及 PyYAML，对纯 Node.js 环境不够友好

适用人群

技能开发者：自检代码质量，提前发现阻塞性问题
平台审核员：建立标准化准入门槛，降低生态风险
技术管理者：量化团队交付质量，追踪改进趋势
开源贡献者：为第三方技能提交客观评估报告

常规风险

| 风险类型 | 说明 | 缓解措施 |

|----------|------|----------|

| 误报漏报 | 自动化扫描无法识别逻辑漏洞 | 强制人工代码走读 |

| 评分漂移 | 不同评估者标准不一致 | 建立评分校准机制 |

| 工具依赖 | eval-skill.py 本身存在 bug | 版本锁定 + 回归测试 |

| 安全盲区 | 高级威胁（如供应链投毒）未覆盖 | 结合 SkillLens 等专业工具 |

安全解读

核心用法

skill-evaluator 是一个专为 Clawdbot 生态设计的 Skill 质量评估工具，采用自动化检测 + 人工评分的混合评估模式。用户首先运行 eval-skill.py 脚本完成文件结构、YAML frontmatter、脚本语法、依赖审计等自动化检查；随后依据 rubric.md 中的 25 项评分标准（涵盖功能性、可靠性、性能、AI/人类可用性、安全性、可维护性、Agent 特性等 8 大类别），手动打分并生成 EVAL.md 评估报告。

显著优点

1. 多框架融合方法论：整合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 人机交互原则，以及针对 AI Agent 场景独创的 5 项评估维度（触发精准性、渐进式披露、可组合性、幂等性、逃生通道设计），形成行业领先的评估体系。

2. 零外部依赖的安全基线：自动化检测脚本仅使用 Python 标准库（注：PyYAML 为唯一声明依赖，用于 YAML 解析），极大降低供应链攻击面，符合安全优先的设计理念。

3. 清晰的评分决策机制：100 分制评分与五级评级（90-100 优秀/80-89 良好/70-79 可接受/60-69 需改进/<60 未就绪）直接对应明确的发布建议，降低主观判断成本。

4. 生态互补性：明确区分与 SkillLens（专注深度安全审计）的定位差异，形成"质量评估→安全加固"的协作流程。

潜在缺点与局限性

T3 来源的信任成本：由个人开发者 terwox 维护，无知名组织背书，用户在关键环境部署前需额外进行人工代码审查。
人工评分的主观性：25 项手动评分依赖评估者的经验判断，不同评分者可能对同一 Skill 给出差异较大的结果，团队需建立内部校准机制。
环境变量读取透明度不足：自动化脚本会扫描被评估 Skill 中的环境变量引用，但 SKILL.md 未充分披露 evaluator 自身的这一行为，存在信息对称性缺口（低风险项 RISK-001）。
缺乏自举测试：作为评估工具，其自身缺乏单元测试覆盖，形成"医者难自医"的尴尬。

适合人群

Skill 发布者：在提交至 Clawdbot 市场前的自我质量把关
平台运营方：批量审核第三方 Skill 的发布资质
企业安全团队：建立内部 Skill 准入标准，定制 rubric 评分权重
开源贡献者：学习高质量 Skill 的设计模式与常见反模式

常规风险

该工具本身风险极低：无网络请求、无敏感数据收集、无动态代码执行。主要风险在于使用场景——若评估者过度依赖自动化分数而忽视人工审查，可能让高自动化分但存在语义层安全问题的 Skill 蒙混过关。建议始终将自动化检测作为初筛，人工评分作为终审。

quality-assurance security-audit iso-25010 static-analysis code-review ci-cd evaluation-framework openssf clawdbot

Skill Evaluator 内容

assets文件夹

references文件夹

scripts文件夹

手动下载zip · 13.1 kB

EVAL-TEMPLATE.mdtext/markdown

请选择文件