skill-evaluator

📋 多框架 Skill 质量评估专家

🥥5总安装量 2评分人数 2
100% 的用户推荐

基于 ISO 25010、OpenSSF 等国际标准的多框架 Skill 质量评估工具,为 Clawdbot 生态提供自动化结构检查与 25 项人工评分,确保 Skill 发布前的可靠性与安全性。

A

基本安全,请在特定环境下使用

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 零网络行为:纯离线本地工具,无数据外传、无 C&C 通信
  • ✅ 安全依赖管理:仅使用 Python 标准库及 PyYAML,均采用 `yaml.safe_load()()` 防止代码注入
  • ✅ 无恶意代码特征:经静态分析与动态测试,未检出后门、木马、勒索软件或数据窃取行为
  • ⚠️ 路径遍历风险:未严格限制扫描路径范围,建议用户确保输入路径可信
  • ⚠️ 符号链接处理:未检测符号链接指向,可能意外访问敏感系统文件

使用说明

核心用法

skill-evaluator 是一款专为 Clawdbot 生态设计的 Skill 质量评估工具,采用"自动化检查 + 人工评分"的混合模式。用户首先运行 eval-skill.py 脚本对目标 Skill 进行自动化结构扫描,包括文件完整性、YAML frontmatter 解析、脚本语法检查、依赖审计及敏感信息扫描。随后,评估者依据内置的 25 项评分标准(涵盖功能性、可靠性、性能、可用性、安全性、可维护性及 Agent 专属特性)进行人工打分,最终生成综合评估报告(EVAL.md),为 Skill 发布决策提供数据支撑。

显著优点

1. 权威标准背书:融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 可用性原则及 Agent 专属启发式规则,评估体系科学严谨。
2. 自动化提效:内置 Python 脚本可快速完成 7 大类结构检查,显著降低人工审查成本,支持 JSON 输出便于集成 CI/CD 流程。

3. 量化评分机制:100 分制评分配合明确的等级划分(90-100 优秀、80-89 良好等),使质量判断客观可比较。

4. 安全优先设计:内置凭证扫描、输入验证检查及数据安全评估,与 SkillLens 形成互补的安全审计能力。

5. 渐进式披露支持:评估标准中包含 Agent 特有的"渐进式信息披露"和"逃生舱"设计,契合大模型交互场景。

潜在缺点与局限性

1. 依赖人工判断:25 项标准中约 2/3 需人工评分,评估结果受评估者主观经验影响,不同评估者间可能存在评分偏差。
2. 路径验证宽松:自动化脚本未严格限制目录遍历(如未阻止 /etc/passwd 访问),虽为本地工具预期行为,但在共享环境中存在潜在风险。

3. 无内置测试套件:工具自身缺乏自动化测试覆盖,版本迭代时可能引入回归问题。

4. 协议未明确:开源许可证未在文档中标注,存在合规不确定性。

5. 生态绑定:专为 Clawdbot Skill 结构优化,迁移至其他 Agent 平台需适配改造。

适合的目标群体

  • Skill 开发者:在发布前自检代码质量,提前发现 P0/P1 级阻塞问题
  • 平台运营方:建立 Skill 上架审核流程,统一质量标准
  • 企业内训团队:作为 Agent 开发最佳实践的培训教材和检查清单
  • 开源贡献者:参与 Clawdbot 生态建设时确保贡献质量

使用风险

  • 性能风险:大规模 Skill 仓库扫描时,递归文件遍历可能产生 I/O 瓶颈
  • 依赖风险:可选依赖 PyYAML 若版本过旧可能存在 CVE,建议锁定 5.4+
  • 误报风险:自动化凭证扫描基于正则模式,可能产生假阳性或漏报
  • 评估者偏差:人工评分环节建议采用多评估者交叉评审机制降低主观误差

skill-evaluator 内容

文件夹图标assets文件夹
文件夹图标references文件夹
文件夹图标scripts文件夹
手动下载zip · 13.0 kB
EVAL-TEMPLATE.mdtext/markdown
请选择文件