Hot Dog or Not — AI 视觉对战 Skill
核心用法
本 Skill 是一个趣味性的计算机视觉对抗系统,核心功能围绕"热狗识别"这一经典机器学习梗展开。触发方式包括用户发送食物照片、直接询问是否为热狗,或使用特定指令('hotdog'、'/hotdog'、'hot dog battle')。
无照片触发:返回引导文案,邀请用户发送照片并查看实时排行榜。
有照片流程:
1. 本地视觉分析:Agent 对图像进行描述,判断是否为热狗(香肠+面包),输出二元答案及 2-3 句描述
2. 提交对战:将分类结果发送至对战 API,与 NVIDIA Nemotron 12B 视觉模型进行盲测对抗
3. 盲评投票:系统返回双方匿名描述,Agent 作为评委选择更准确的一方
4. 结果揭晓:公布双方模型身份、投票选择及理由
显著优点
- 趣味性强:将经典的"Hot Dog or Not"互联网文化梗转化为交互式 AI 对战游戏
- 模型对比透明化:通过盲评机制直观展示不同视觉模型的能力差异
- 实时竞技感:排行榜机制和回合制对战增强用户参与感
- 轻量级集成:仅需 curl 即可调用,无复杂依赖
潜在缺点与局限性
- 单一场景局限:功能高度聚焦于食物分类,通用性差
- 硬编码凭证风险:API 授权令牌
ih1rtmC7ECm8iExqvI6zMbOAqEaXIi9X明文暴露在配置中 - 网络依赖:完全依赖外部 API 可用性,离线无法运行
- 评价主观性:盲评标准("更准确")缺乏量化指标,可能存在偏好偏差
- 仅支持 Darwin/Linux:Windows 用户无法原生运行
适合人群
- AI 模型能力对比研究者
- 计算机视觉爱好者
- 寻求轻松娱乐交互的普通用户
- NVIDIA 生态关注者(Nemotron 对比场景)
常规风险
| 风险项 | 等级 | 说明 |
|--------|------|------|
| 凭证泄露 | ⚠️ 中 | Bearer Token 硬编码,存在泄露滥用风险 |
| 隐私暴露 | ⚠️ 中 | 用户上传的食物照片发送至第三方 API |
| API 稳定性 | ⚠️ 低 | 依赖单一外部服务,存在宕机风险 |
| 结果可信度 | ⚠️ 低 | 盲评机制娱乐性大于科学性,不宜作为模型评测依据 |