使用说明

核心用法

skill-evaluator 是一款专为 Clawdbot 生态设计的 Skill 质量评估工具，采用"自动化检查 + 人工评分"的混合模式。用户首先运行 eval-skill.py 脚本对目标 Skill 进行自动化结构扫描，包括文件完整性、YAML frontmatter 解析、脚本语法检查、依赖审计及敏感信息扫描。随后，评估者依据内置的 25 项评分标准（涵盖功能性、可靠性、性能、可用性、安全性、可维护性及 Agent 专属特性）进行人工打分，最终生成综合评估报告（EVAL.md），为 Skill 发布决策提供数据支撑。

显著优点

1. 权威标准背书：融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 可用性原则及 Agent 专属启发式规则，评估体系科学严谨。
2. 自动化提效：内置 Python 脚本可快速完成 7 大类结构检查，显著降低人工审查成本，支持 JSON 输出便于集成 CI/CD 流程。
3. 量化评分机制：100 分制评分配合明确的等级划分（90-100 优秀、80-89 良好等），使质量判断客观可比较。
4. 安全优先设计：内置凭证扫描、输入验证检查及数据安全评估，与 SkillLens 形成互补的安全审计能力。
5. 渐进式披露支持：评估标准中包含 Agent 特有的"渐进式信息披露"和"逃生舱"设计，契合大模型交互场景。

潜在缺点与局限性

1. 依赖人工判断：25 项标准中约 2/3 需人工评分，评估结果受评估者主观经验影响，不同评估者间可能存在评分偏差。
2. 路径验证宽松：自动化脚本未严格限制目录遍历（如未阻止 /etc/passwd 访问），虽为本地工具预期行为，但在共享环境中存在潜在风险。
3. 无内置测试套件：工具自身缺乏自动化测试覆盖，版本迭代时可能引入回归问题。
4. 协议未明确：开源许可证未在文档中标注，存在合规不确定性。
5. 生态绑定：专为 Clawdbot Skill 结构优化，迁移至其他 Agent 平台需适配改造。

适合的目标群体

Skill 开发者：在发布前自检代码质量，提前发现 P0/P1 级阻塞问题
平台运营方：建立 Skill 上架审核流程，统一质量标准
企业内训团队：作为 Agent 开发最佳实践的培训教材和检查清单
开源贡献者：参与 Clawdbot 生态建设时确保贡献质量

使用风险

性能风险：大规模 Skill 仓库扫描时，递归文件遍历可能产生 I/O 瓶颈
依赖风险：可选依赖 PyYAML 若版本过旧可能存在 CVE，建议锁定 5.4+
误报风险：自动化凭证扫描基于正则模式，可能产生假阳性或漏报
评估者偏差：人工评分环节建议采用多评估者交叉评审机制降低主观误差

安全解读

核心用法

skill-evaluator 是 Clawdbot 生态的官方技能质量评估框架，采用「自动化检测 + 人工评分」的混合模式，在技能发布前执行 25 项标准审查。

自动化阶段：运行 eval-skill.py 对目标技能目录进行结构扫描，覆盖文件完整性、YAML frontmatter 语法、脚本语法检查、依赖审计及敏感信息检测（硬编码凭证、邮箱等）。输出支持 --json 机器可读格式与 --verbose 详细模式。

人工评估阶段：评估者依据 references/rubric.md 中的 8 大类 25 项评分标准（0–4 分制，满分 100）进行逐项打分，涵盖：

功能性（完备性、正确性、适用性）
可靠性（容错、错误报告、可恢复性）
性能（Token 成本、执行效率）
AI 可用性（可学习性、一致性、反馈、错误预防）
人类可用性（可发现性、容错性）
安全性（凭证管理、输入验证、数据安全）
可维护性（模块化、可修改性、可测试性）
Agent 专属（触发精确性、渐进式披露、可组合性、幂等性、逃生通道）

评估结果按优先级分级：P0（阻断发布）、P1（建议修复）、P2（优化项），最终生成 EVAL.md 报告。

显著优点

1. 标准权威性：融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 人机交互原则及 Agent 专属启发式规则，覆盖质量评估的多维视角。
2. 自动化提效：基础结构检查（语法、依赖、凭证扫描）无需人工介入，快速定位技术债务。
3. 安全内置：原生集成敏感信息检测与输入验证审计，与 SkillLens 形成互补（SkillLens 专注深度安全，本工具聚焦质量基线）。
4. 发布导向：明确的评分区间与行动指南（90–100 分直接发布，<60 分需重大重构），降低决策成本。

潜在局限

人工依赖：核心质量判断（如「触发精确性」「渐进式披露」）需评估者主观评分，结果一致性依赖评估者经验。
Python 限定：自动化脚本仅支持 Python 技能的结构检查，对其他语言生态覆盖有限。
静态分析边界：无法捕获运行时行为异常（如复杂条件下的逻辑错误），需配合集成测试。

适合人群

技能开发者：在提交 PR 前自检代码质量，减少评审往返。
平台维护者：建立技能上架的质量门禁，统一生态标准。
安全审计员：作为 SkillLens 的前置筛查，快速过滤低质量提交。

常规风险

1. 依赖供应链：核心依赖 PyYAML 虽广泛使用，仍需版本锁定以防范 CVE。
2. 文件系统遍历：扫描脚本会递归读取目标目录所有文件，需确保扫描范围可控，避免意外读取敏感路径。
3. 评分主观性：人工评分环节可能因评估者理解差异导致同技能不同评分，建议多人复核关键技能。

testing automation development-engineering product-management devops

skill-evaluator 内容

assets文件夹

references文件夹

scripts文件夹

手动下载zip · 13.0 kB

EVAL-TEMPLATE.mdtext/markdown

请选择文件