核心用法
Seedance 2.0 Pro 是字节跳动推出的多模态电影级短视频生成模型,通过 RunComfy CLI 调用 bytedance/seedance-v2/pro 端点。核心能力在于多模态参考融合:可同时输入最多 9 张图片、3 段视频、3 段音频作为参考,由模型自动协调生成 4–15 秒的连贯镜头。关键设计原则是「图定身份、文控叙事」——将人物面孔、品牌标识等稳定元素放入 image_url,动作、光影、运镜等动态描述交给 prompt。
CLI 调用格式:runcomfy run bytedance/seedance-v2/pro --input '{...}' --output-dir <path>。支持 generate_audio: true 实现原生唇同步语音生成,无需单独 TTS 步骤。参数覆盖纵横比(16:9 到 9:16 等)、分辨率(480p/720p)、种子控制等,满足可复现变体测试需求。
显著优点
1. 原生唇同步:in-pass 音频生成与口型自然匹配, spokesperson/对话广告场景无需后期对轨
2. 多模态输入上限高:9 图+3 视频+3 音频的容量在同类工具中领先,适合复杂品牌叙事
3. 电影级运镜理解:「medium close-up」「slow push-in」「handheld follow」等摄影术语可直接作为有效指令
4. 身份一致性:通过图像参考而非文本描述锁定人物,跨语言、跨场景保持品牌角色统一
5. RunComfy 托管稳定:Model API 抽象了模型部署与调度,CLI 内置轮询与断点续传
潜在缺点与局限性
- 时长硬限制 4–15s:无法直接生成长镜头,需分段后拼接
- 分辨率上限 720p:当前 playground 变体未开放 1080p 或更高
- 参考媒体规格严苛:视频/音频必须 2–15s,音频 <15MB,超出即 422 拒绝
- 唇同步非绝对完美:依赖提示词清晰度,复杂表情或快速 speech 可能失准
- 无角色绑定语法:不支持
@character类指令,纯靠图像参考+提示对齐
适合人群
- 需要快速产出多语言品牌 spokesperson 视频的出海营销团队
- 电影/广告 previs(视觉预演)制作人,需用参考素材快速验证镜头语言
- 短视频创作者,追求「参考图+参考视频+参考音频」三者融合的统一风格输出
- 已有 RunComfy 工作流、希望统一 CLI 入口的自动化团队
常规风险
- API 密钥管理:
RUNCOMFY_TOKEN或~/.config/runcomfy/token.json泄露可能导致配额盗刷,CI 环境建议仅用环境变量 - 外部 URL 风险:传入的 image/video/audio URL 由 RunComfy 服务器拉取,需防范恶意图片 prompt injection
- 成本与配额:视频生成 API 调用成本显著高于图像,大规模变体测试前建议锁定种子小批量验证
- 合规边界:生成真实人物肖像需确认肖像权授权,品牌素材需确认商标使用许可
- 服务依赖:RunComfy 平台可用性决定服务连续性,需关注上游状态与 exit code 69/75 的降级策略