🫧 Wan 2.7 — Pro Pack on RunComfy

🫧 音频驱动唇同步视频生成

RunComfy 托管的 Wan 2.7 旗舰视频生成模型,支持音频驱动唇同步与多参考条件控制,适合广告配音与多语言变体制作。

收藏
11.5k
安装
2.8k
版本
0.1.1
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Wan 2.7 是阿里巴巴 Wan-AI 推出的旗舰文本到视频模型,通过 RunComfy Model API 提供服务。用户通过本地 CLI 调用 runcomfy run wan-ai/wan-2-7/text-to-video,提交包含提示词、分辨率、时长、长宽比等参数的 JSON 请求。核心功能包括:

  • 文本到视频生成:支持最长 15 秒、最高 1080p 的输出,提供 5 种预设宽高比
  • 音频驱动唇同步:通过 audio_url 参数上传 3–30 秒、≤15MB 的 WAV/MP3 文件,实现人物口型与音轨精准同步
  • 多参考条件控制:最多支持 5 个参考媒体(图像/视频/语音),实现精细化动作控制
  • 提示词自动扩展:默认启用,将简短提示词重写为更丰富的描述;可关闭以获得字面控制

显著优点

1. 专业级唇同步能力:在同类开源/商业模型中,Wan 2.7 的音频驱动口型同步表现突出,适合品牌广告、多语言配音等场景
2. 物理感知的运动先验:生成过渡流畅、运动物理合理的视频,减少突兀的形变和抖动

3. 负向提示词有效:可针对性排除具体问题(如字幕、闪烁、扭曲手部),而非仅依赖模糊描述

4. 多参考架构:支持图像、视频、语音的组合参考,为复杂叙事提供控制基础

5. 确定性复现:通过固定种子可生成一致变体,便于 A/B 测试和迭代优化

潜在缺点与局限性

  • 时长与分辨率上限:15 秒时长和 1080p 分辨率限制,长叙事需手动拼接,无原生 4K
  • 音频规格严格:仅接受 3–30 秒、≤15MB 的 WAV/MP3,超出范围直接拒绝,不支持实时语音生成
  • 参考媒体数量上限:最多 5 个参考,复杂场景可能受限
  • 无内置语音合成:需外置音频轨道,如需一体化生成需转用 Seedance 2.0 Pro
  • 中文生态依赖:模型由阿里巴巴 Wan-AI 开发,API 托管于 RunComfy(海外服务商),跨境合规需评估

适合人群

  • 品牌与广告团队:需快速制作带定制配音的产品展示、代言人视频
  • 本地化与 MCN 运营:同一视觉素材配合多语言音轨生成区域化版本
  • AI 视频创作者:追求物理合理运动、精细控制的中高级用户
  • 技术集成开发者:熟悉 CLI 工具链,需将视频生成嵌入 CI/CD 或自动化工作流

常规风险

  • API 密钥安全runcomfy login 将令牌写入本地文件(权限 0600),CI 环境建议改用 RUNCOMFY_TOKEN 环境变量
  • 提示词注入:通过 audio_url 等参数引入的外部 URL 由服务端获取,存在图像/视频类提示注入风险
  • 内容合规:生成人物肖像、商标场景需确保授权,跨境数据传输需符合属地法规
  • 成本与配额:按调用计费,高频使用需监控配额;大文件下载有 2GiB 上限防护
  • 服务可用性:依赖 RunComfy 基础设施,存在 429/5xx 等可重试/不可重试错误码

安全解读

核心用法

Wan 2.7 是 Wan-AI 推出的旗舰文生视频模型,通过 RunComfy CLI 封装为本地调用工具。核心能力包括:

  • 文生视频:最长 15 秒,支持 720p/1080p 及 5 种常见宽高比
  • 音频驱动口型同步:通过 audio_url 参数绑定 3-30 秒自定义音频,实现 spokesperson 类广告的精准唇同步
  • 多参考条件控制:支持最多 5 个图像/视频/语音参考输入,实现细粒度动作迁移
  • 提示词自动扩展:默认开启,可将简短提示改写为更丰富的描述;需精确控制时可关闭

调用方式统一为 runcomfy run wan-ai/wan-2-7/text-to-video --input '{...}',需预先安装 @runcomfy/cli 并完成登录。

显著优点

| 优势 | 说明 |
|------|------|
| 口型同步精度高 | 目前少数支持自定义音频直接驱动面部动画的开源方案 |
| 物理运动自然 | 运动先验强,过渡平滑,镜头语言(推轨、手持、摇臂)响应准确 |
| 多语言适配友好 | 同一视觉提示替换 `audio_url` 即可生成多语言版本 |
| 负向提示有效 | 可针对性排除水印、字幕、闪烁等具体问题 |
| 迭代可控 | 种子复现机制支持 A/B 测试和变体生成 |

潜在缺点与局限性

  • 时长上限 15 秒,长叙事需手动拼接
  • 无原生 4K,最高 1080p
  • 音频规格严格限制:3-30 秒、≤15MB、仅 WAV/MP3,超限直接拒绝
  • 无内置语音生成,需自备音频或转用 Seedance 2.0 Pro
  • 参考媒体上限 5 个,复杂场景需取舍
  • 依赖外部 CLI 工具,需 Node.js 环境及网络连接

适合人群

  • 需要快速生成带配音的产品广告/营销视频的创作者
  • 制作多语言版本内容的本地化团队
  • 对镜头运动和物理连贯性有要求的视觉叙事者
  • 已使用 RunComfy 生态、希望统一工作流的技术团队

常规风险

| 风险类别 | 说明 |
|----------|------|
| Token 泄露 | `RUNCOMFY_TOKEN` 若写入 CI 日志或版本控制将导致账户被盗用 |
| 外部 URL 注入 | `audio_url` 等参数若指向恶意文件可能触发模型侧风险 |
| 内容合规 | 生成内容需自行审核,模型无内置过滤 |
| 服务依赖 | RunComfy API 可用性直接影响功能,无离线模式 |
| 成本控制 | 按调用计费,高频批量生成需关注账单 |

该 Skill 本身为纯文档型,无代码执行能力,安全性经 CLS-Certify S 级认证。

🫧 Wan 2.7 — Pro Pack on RunComfy 内容

手动下载zip · 4.0 kB
SKILL.mdtext/markdown
请选择文件