使用说明

核心用法

Seedance 2.0 Pro 是字节跳动推出的多模态电影级短视频生成模型，通过 RunComfy CLI 调用 bytedance/seedance-v2/pro 端点。核心能力在于多模态参考融合：可同时输入最多 9 张图片、3 段视频、3 段音频作为参考，由模型自动协调生成 4–15 秒的连贯镜头。关键设计原则是「图定身份、文控叙事」——将人物面孔、品牌标识等稳定元素放入 image_url，动作、光影、运镜等动态描述交给 prompt。

CLI 调用格式：runcomfy run bytedance/seedance-v2/pro --input '{...}' --output-dir <path>。支持 generate_audio: true 实现原生唇同步语音生成，无需单独 TTS 步骤。参数覆盖纵横比（16:9 到 9:16 等）、分辨率（480p/720p）、种子控制等，满足可复现变体测试需求。

显著优点

1. 原生唇同步：in-pass 音频生成与口型自然匹配， spokesperson/对话广告场景无需后期对轨
2. 多模态输入上限高：9 图+3 视频+3 音频的容量在同类工具中领先，适合复杂品牌叙事
3. 电影级运镜理解：「medium close-up」「slow push-in」「handheld follow」等摄影术语可直接作为有效指令
4. 身份一致性：通过图像参考而非文本描述锁定人物，跨语言、跨场景保持品牌角色统一
5. RunComfy 托管稳定：Model API 抽象了模型部署与调度，CLI 内置轮询与断点续传

潜在缺点与局限性

时长硬限制 4–15s：无法直接生成长镜头，需分段后拼接
分辨率上限 720p：当前 playground 变体未开放 1080p 或更高
参考媒体规格严苛：视频/音频必须 2–15s，音频 <15MB，超出即 422 拒绝
唇同步非绝对完美：依赖提示词清晰度，复杂表情或快速 speech 可能失准
无角色绑定语法：不支持 @character 类指令，纯靠图像参考+提示对齐

适合人群

需要快速产出多语言品牌 spokesperson 视频的出海营销团队
电影/广告 previs（视觉预演）制作人，需用参考素材快速验证镜头语言
短视频创作者，追求「参考图+参考视频+参考音频」三者融合的统一风格输出
已有 RunComfy 工作流、希望统一 CLI 入口的自动化团队

常规风险

API 密钥管理：RUNCOMFY_TOKEN 或 ~/.config/runcomfy/token.json 泄露可能导致配额盗刷，CI 环境建议仅用环境变量
外部 URL 风险：传入的 image/video/audio URL 由 RunComfy 服务器拉取，需防范恶意图片 prompt injection
成本与配额：视频生成 API 调用成本显著高于图像，大规模变体测试前建议锁定种子小批量验证
合规边界：生成真实人物肖像需确认肖像权授权，品牌素材需确认商标使用许可
服务依赖：RunComfy 平台可用性决定服务连续性，需关注上游状态与 exit code 69/75 的降级策略

ai-video video-generation multimodal lip-sync bytedance runcomfy cli-tool brand-content short-form cinematic

🫧 Seedance 2.0 Pro — Pro Pack on RunComfy 内容

手动下载zip · 4.3 kB

SKILL.mdtext/markdown

请选择文件