核心用法
HappyHorse 1.0 是目前在 Artificial Analysis Video Arena 排名第一(Elo 1333 t2v / 1392 i2v)的文本转视频模型,通过 RunComfy CLI 调用。本技能并非单纯封装 API,而是捆绑了官方文档化的提示词模式与模型路由策略,确保代理能在首试或第二次尝试时获得最佳输出。
关键调用参数
| 参数 | 说明 | 默认值 |
|------|------|--------|
| `prompt` | 支持 6 种语言(中/英/日/韩/德/法),最多 2500 字符 | 必填 |
| `aspect_ratio` | 仅支持 5 种固定比例 | `16:9` |
| `resolution` | `720P` 或 `1080P` | `1080P` |
| `duration` | 3–15 秒 | `5` |
| `watermark` | 是否添加水印 | `true` |
提示词优化策略
- 动态描述优先:使用"推近、手持、目光转移"等时间性动词,而非静态画面描述
- 镜头语言前置:"Wide shot"、"Tracking shot"、"35mm anamorphic" 等术语被模型直接解析
- 单节拍聚焦:每次只描述一个主要视觉动作,避免多动作竞争
- 多镜头一致性:每次镜头切换时重申主体特征(服装、颜色、标志性细节)
- 音频引导:同步生成环境音、对话语气,可在提示词中指定
智能模型路由
| 场景 | 推荐模型 |
|------|---------|
| 多镜头角色/服装一致性、原生音频同步 | **HappyHorse 1.0** |
| 精细口型同步 + 参考视频 | Seedance 2.0 Pro |
| 精细运动控制 + 多参考条件 | Wan 2.7 |
| 超快速迭代(亚秒级每帧)| LTX 2 |
显著优点
1. 排行榜领先质量:#1 on Artificial Analysis Video Arena,盲测胜率最高
2. 原生 1080p + 同步音频:单次生成即可输出广播级画质与配套音轨
3. 多语言原生支持:6 种语言无需翻译,提示词质量无损耗
4. 跨镜头角色一致性:内置身份保持机制,适合品牌叙事与连续场景
5. 专业提示词封装:将官方最佳实践编码为技能逻辑,降低用户学习成本
潜在缺点与局限性
- 时长严格受限:3–15 秒硬上限,长叙事需分段生成后拼接
- 画幅比例固定:仅 5 种预设,超宽银幕比例会被裁切或拒收
- 音频无法外接:仅支持 in-pass 生成,无法导入外部音频驱动口型(需转用 Wan 2.7)
- 无免费图生视频:此模板为纯文本生成,i2v 需调用独立 pipeline
- 商业依赖:必须持有 RunComfy 账户与有效 token,非自托管方案
- 成本试错:虽优化了提示词效率,但仍按 GPU 时长计费,大参数测试成本较高
适合人群
- 品牌与广告创作者:需要多镜头一致角色、多语言本地化、原生音频的短形式内容
- 影视预演与概念验证:快速生成分镜级动态预览,测试镜头语言与节奏
- 社交媒体运营:TikTok/Reels/YouTube Shorts 等平台原生 9:16 竖版内容
- 多语言内容团队:中/日/韩/德/法市场本地化,无需担心翻译导致的提示词漂移
常规风险
- 账户与令牌安全:
~/.config/runcomfy/token.json需妥善保管,CI 环境建议用RUNCOMFY_TOKEN而非持久化登录 - 下载域限制:CLI 仅自动下载
*.runcomfy.net/*.runcomfy.com域名内容,但用户仍需警惕恶意模型返回的外部链接 - 费用失控:长时间运行或高频调用可能产生意外账单,建议设置预算告警
- CLI 版本兼容性:技能依赖特定 CLI 行为,升级 CLI 时需验证接口变更
- 模型版本锁定:HappyHorse 1.0 为特定版本,后续模型更新可能需技能同步升级