核心用法
skill-evaluator 是一款专为 Clawdbot 生态设计的 Skill 质量评估工具,采用"自动化检查 + 人工评分"的混合模式。用户首先运行 eval-skill.py 脚本对目标 Skill 进行自动化结构扫描,包括文件完整性、YAML frontmatter 解析、脚本语法检查、依赖审计及敏感信息扫描。随后,评估者依据内置的 25 项评分标准(涵盖功能性、可靠性、性能、可用性、安全性、可维护性及 Agent 专属特性)进行人工打分,最终生成综合评估报告(EVAL.md),为 Skill 发布决策提供数据支撑。
显著优点
1. 权威标准背书:融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 可用性原则及 Agent 专属启发式规则,评估体系科学严谨。
2. 自动化提效:内置 Python 脚本可快速完成 7 大类结构检查,显著降低人工审查成本,支持 JSON 输出便于集成 CI/CD 流程。
3. 量化评分机制:100 分制评分配合明确的等级划分(90-100 优秀、80-89 良好等),使质量判断客观可比较。
4. 安全优先设计:内置凭证扫描、输入验证检查及数据安全评估,与 SkillLens 形成互补的安全审计能力。
5. 渐进式披露支持:评估标准中包含 Agent 特有的"渐进式信息披露"和"逃生舱"设计,契合大模型交互场景。
潜在缺点与局限性
1. 依赖人工判断:25 项标准中约 2/3 需人工评分,评估结果受评估者主观经验影响,不同评估者间可能存在评分偏差。
2. 路径验证宽松:自动化脚本未严格限制目录遍历(如未阻止 /etc/passwd 访问),虽为本地工具预期行为,但在共享环境中存在潜在风险。
3. 无内置测试套件:工具自身缺乏自动化测试覆盖,版本迭代时可能引入回归问题。
4. 协议未明确:开源许可证未在文档中标注,存在合规不确定性。
5. 生态绑定:专为 Clawdbot Skill 结构优化,迁移至其他 Agent 平台需适配改造。
适合的目标群体
- Skill 开发者:在发布前自检代码质量,提前发现 P0/P1 级阻塞问题
- 平台运营方:建立 Skill 上架审核流程,统一质量标准
- 企业内训团队:作为 Agent 开发最佳实践的培训教材和检查清单
- 开源贡献者:参与 Clawdbot 生态建设时确保贡献质量
使用风险
- 性能风险:大规模 Skill 仓库扫描时,递归文件遍历可能产生 I/O 瓶颈
- 依赖风险:可选依赖 PyYAML 若版本过旧可能存在 CVE,建议锁定 5.4+
- 误报风险:自动化凭证扫描基于正则模式,可能产生假阳性或漏报
- 评估者偏差:人工评分环节建议采用多评估者交叉评审机制降低主观误差