核心用法
该技能作为智能路由层,根据用户意图自动匹配 RunComfy 目录中的最佳 I2V 模型:
- 肖像/产品动画 → HappyHorse 1.0 I2V(Artificial Analysis Arena #1,Elo 1392)
- 原生音频合成,面部保真度极佳
- 输入:单张图片 URL + 运动提示词
- 输出:3-15秒视频,保持输入宽高比
- 自定义配音口型同步 → Wan 2.7 + audio_url
- 接受 3-30 秒 MP3/WAV(≤15MB),驱动精准 lip-sync
- 支持多语言版本批量生成(同 prompt 换 audio_url)
- 需描述镜头、灯光、景别,音频驱动口型
- 多模态融合 → Seedance 2.0 Pro
- 最多 9 张参考图 + 3 段参考视频(2-15s)+ 3 段参考音频
- 用于品牌一致性叙事:人物身份 + 场景氛围 + 声音特征
调用统一格式:runcomfy run <vendor>/<model> --input '{...}' --output-dir <path>
显著优点
1. 零模型选型成本:内置决策表自动匹配意图,避免用户在不同模型间试错消耗迭代
2. Arena 榜首背书:默认路由 HappyHorse 为当前公开评测最强 I2V 模型
3. 原生音频能力:HappyHorse 单 pass 生成同步环境音;Wan 2.7 支持任意自定义音轨
4. 多模态组合灵活性:Seedance 的图+视频+音频引用模式业内领先
5. CLI 原生集成:npm 全局安装,支持 CI/CD 环境变量注入(RUNCOMFY_TOKEN)
潜在缺点与局限
- 单模型单调用:无法在一次生成中融合 HappyHorse 的动画质量 + Wan 的口型同步,需后期拼接
- 分辨率天花板:Seedance Pro 模板限 720p,HappyHorse/Wan 限 1080p
- 宽高比锁定:HappyHorse 输出强制匹配输入比例,无独立 reframing
- 参考媒体规格严格:视频/音频必须 2-15 秒,音频 <15MB,超规即失败
- 美学一致性风险:若参考图(水彩)与参考视频(写实)风格冲突,输出会漂移
适合人群
| 场景 | 推荐路由 |
|:---|:---|
| 社交媒体头像动效 / 虚拟主播 | HappyHorse |
| 电商产品 360° 展示 / 包装动画 | HappyHorse |
| 多语言营销视频(同画面换配音)| Wan 2.7 |
| 品牌 IP 一致性短片(角色+场景+声线)| Seedance 2.0 Pro |
| 自动化视频工作流 / CI 集成 | 全栈(支持 `RUNCOMFY_TOKEN`)|
常规风险
- API 令牌泄露:
~/.config/runcomfy/token.json权限为 0600,但 CI 环境建议使用环境变量隔离 - 外部 URL 注入:图片/视频/音频 URL 由 RunComfy 服务器拉取,存在图像提示词注入风险(行业共性问题)
- 下游服务可用性:exit code 69(上游 5xx)、75(超时/限流)需调用方实现指数退避重试
- 生成内容合规:输出可能含合成人物,需遵守平台 deepfake 披露政策与地域法规
- 存储爆破防护:CLI 单文件下载硬限 2 GiB,防止恶意模型输出占满磁盘