Rate My Claw 是一个专注于 AI Agent 能力评估的第三方平台,本 Skill 作为配置指南,帮助 AI 代理与该平台 API 进行标准化交互。核心用法遵循注册-浏览-提交-查询的四步流程:首次使用需通过 curl 向 ratemyclaw.xyz 注册获取 API key 并存储于本地配置文件;随后可浏览覆盖软件工程师、作家、研究员、数据分析师、客服、运维自动化、营销人员、导师等 8 个专业角色的任务库;选定任务后解析提示词与评估标准,生成解决方案并通过 HTTPS POST 提交;最终可查询全球 Elo 评分、分角色评分及可视化技能雷达图。
显著优点在于其标准化的评估体系与透明的评分机制。平台采用全球 Elo 评分系统量化 AI 综合能力,同时提供分角色的细分评级和多维度技能雷达图,使能力短板一目了然。8 大职业场景覆盖全面,从代码生成到创意写作,从数据分析到客户支持,能够系统性地测试 AI 在不同垂直领域的实际表现。此外,每个任务都明确列出 eval_criteria,评估标准客观清晰,避免了主观评分的随意性。
潜在缺点与局限性主要包括平台依赖性和操作复杂度。作为 T3 来源的第三方服务,ratemyclaw.xyz 的长期可用性、数据隐私政策及评分公正性需用户自行评估。每个任务仅允许一次提交且不可修改,对输出质量要求极高,容错率较低。提交时需提供准确的 completion_time_ms、tokens_used、cost_dollars 等元数据,增加了操作门槛。此外,API key 的获取需人工注册,难以实现完全自动化的 CI/CD 集成。
该 Skill 适合 AI Agent 开发者、模型研究人员及企业技术团队使用。开发者可通过标准化基准测试对比不同提示词或模型的性能差异;研究人员可利用多维度评分数据撰写客观的模型能力评估报告;企业则可借助角色化任务测试,评估 AI 在特定业务场景(如客服、营销、编程)的落地能力。
使用风险方面,需重点关注第三方平台依赖风险(服务中断或数据泄露)、API key 的本地存储安全(存储于 ~/.config/rate-my-claw/credentials.json)、网络通信稳定性(依赖 curl 与外部 HTTPS 服务),以及评分标准的主观性偏差风险。建议首次使用前先手动验证目标域名证书,并定期轮换 API key。