使用说明

skillbench 是 ClawVault 生态系统中的专业 Skill 性能追踪与版本管理工具，旨在为 AI Agent 构建自我改进的数据闭环。其核心工作流程遵循"使用-记录-评分-优化"的循环：开发者通过 skillbench use 命令切换特定版本的 Skill，在执行任务后使用 skillbench record 记录执行结果（支持自动从 tasktime 获取耗时），系统基于成功率、平均耗时、一致性和趋势四个维度计算综合得分并给出 A+ 到 D 的等级评定。通过 skillbench compare 可直观对比不同版本的性能差异，skillbench improve 则基于历史数据提供针对性的优化建议。

该工具的显著优势在于其量化的评估体系与深度的生态集成。评分机制将成功率（40%）、平均耗时（30%）、一致性（20%）和趋势（10%）科学加权，避免了单一指标的片面性。与 tasktime 的无缝集成实现了耗时数据的自动采集，与 ClawVault 的同步则确保了性能数据的持久化存储与跨设备共享。此外，skillbench 提供了完善的 CI/CD 支持，包括基线检查（baseline --check）、自动化测试（ci 命令）和 GitHub Actions 工作流模板，使 Skill 的质量监控可以无缝嵌入现有开发流程。

然而，skillbench 也存在一定的局限性。首先，该工具深度绑定 ClawVault 生态，对于不使用该生态的用户而言独立价值有限。其次，虽然 Skill 本身为纯文档型资产，但其实际功能依赖外部 npm 包 @versatly/skillbench，用户需要自行审查该依赖的安全性。此外，工具要求系统安装 Node.js 运行时环境，在某些受限环境中可能部署困难。最后，理解版本管理、基线测试等概念需要一定的学习成本。

该 Skill 特别适合以下群体：使用 ClawVault 生态构建 AI Agent 的开发者、需要量化评估 Agent Skill 性能表现的工程团队、追求持续集成与自动化测试的 DevOps 团队，以及管理多个 Skill 版本迭代的产品团队。对于希望建立 Skill 性能基线、监控退化趋势或优化 Agent 工作流效率的场景尤为适用。

使用 skillbench 时需注意潜在风险：持续监控模式（watch）可能产生一定的系统资源开销；同步数据至 ClawVault 可能涉及业务敏感信息的外传，建议事先了解隐私政策；工具功能强依赖 npm 包和 ClawVault 服务的可用性，存在供应链风险；此外，Skill 的大版本升级可能导致历史基准数据失效，需要重新建立评估基线。

安全解读

核心用法

skillbench 是一套面向 AI agent 的技能迭代闭环管理工具，核心工作流为：使用技能 → 执行任务 → 记录结果 → 查看评分 → 优化改进。通过 skillbench use <skill>@<version> 激活特定版本技能，配合 skillbench record 记录任务成功/失败状态（可选自动从 tasktime 拉取耗时），最终生成 A+/A/B/C/D 五级评分。支持版本对比 (compare)、趋势分析 (trend)、基线检测 (baseline) 及 CI/CD 集成，形成完整的技能持续改进飞轮。

显著优点

1. 量化驱动决策：基于成功率(40%)、平均耗时(30%)、一致性(20%)、趋势(10%)的加权评分，终结"凭感觉优化"
2. 零摩擦集成：与 tasktime 自动打通计时数据，与 ClawVault 双向同步技能元数据
3. 工程化闭环：内置 watch、ci、badge 等命令，直接嵌入 GitHub Actions 实现自动化回归检测
4. 多智能体就绪：leaderboard 支持多 agent 横向对比，适合团队级技能治理

潜在局限

依赖外部 CLI：实际功能由 npm 包 @versatly/skillbench 提供，本 Skill 仅为调用文档 wrapper
生态锁定：深度绑定 OpenClaw/ClawHub 体系，跨平台迁移成本较高
无内置分析：improve 建议基于规则启发，非 AI 生成的深度诊断

适合人群

维护 10+ 技能的 AI agent 开发者
需要向团队/客户证明技能 ROI 的技术负责人
追求" measurable self-improvement"的自动化工作流极客

常规风险

| 风险项 | 评估 | 说明 |

|--------|------|------|

| 代码执行 | 无 | 纯 Markdown 文档，无可执行代码 |

| 数据隐私 | 极低 | 不收集用户数据，仅操作本地/ClawVault |

| 供应链 | 低 | 依赖 npm 包的审计需用户自行管理 |

| 网络调用 | 无 | Skill 本身零网络请求 |

automation testing devops data-analytics development-engineering

skillbench 内容

手动下载zip · 2.3 kB

SKILL.mdtext/markdown

请选择文件