核心用法
Wan 2.7 是阿里巴巴 Wan-AI 推出的旗舰文本到视频模型,通过 RunComfy Model API 提供服务。用户通过本地 CLI 调用 runcomfy run wan-ai/wan-2-7/text-to-video,提交包含提示词、分辨率、时长、长宽比等参数的 JSON 请求。核心功能包括:
- 文本到视频生成:支持最长 15 秒、最高 1080p 的输出,提供 5 种预设宽高比
- 音频驱动唇同步:通过
audio_url参数上传 3–30 秒、≤15MB 的 WAV/MP3 文件,实现人物口型与音轨精准同步 - 多参考条件控制:最多支持 5 个参考媒体(图像/视频/语音),实现精细化动作控制
- 提示词自动扩展:默认启用,将简短提示词重写为更丰富的描述;可关闭以获得字面控制
显著优点
1. 专业级唇同步能力:在同类开源/商业模型中,Wan 2.7 的音频驱动口型同步表现突出,适合品牌广告、多语言配音等场景
2. 物理感知的运动先验:生成过渡流畅、运动物理合理的视频,减少突兀的形变和抖动
3. 负向提示词有效:可针对性排除具体问题(如字幕、闪烁、扭曲手部),而非仅依赖模糊描述
4. 多参考架构:支持图像、视频、语音的组合参考,为复杂叙事提供控制基础
5. 确定性复现:通过固定种子可生成一致变体,便于 A/B 测试和迭代优化
潜在缺点与局限性
- 时长与分辨率上限:15 秒时长和 1080p 分辨率限制,长叙事需手动拼接,无原生 4K
- 音频规格严格:仅接受 3–30 秒、≤15MB 的 WAV/MP3,超出范围直接拒绝,不支持实时语音生成
- 参考媒体数量上限:最多 5 个参考,复杂场景可能受限
- 无内置语音合成:需外置音频轨道,如需一体化生成需转用 Seedance 2.0 Pro
- 中文生态依赖:模型由阿里巴巴 Wan-AI 开发,API 托管于 RunComfy(海外服务商),跨境合规需评估
适合人群
- 品牌与广告团队:需快速制作带定制配音的产品展示、代言人视频
- 本地化与 MCN 运营:同一视觉素材配合多语言音轨生成区域化版本
- AI 视频创作者:追求物理合理运动、精细控制的中高级用户
- 技术集成开发者:熟悉 CLI 工具链,需将视频生成嵌入 CI/CD 或自动化工作流
常规风险
- API 密钥安全:
runcomfy login将令牌写入本地文件(权限 0600),CI 环境建议改用RUNCOMFY_TOKEN环境变量 - 提示词注入:通过
audio_url等参数引入的外部 URL 由服务端获取,存在图像/视频类提示注入风险 - 内容合规:生成人物肖像、商标场景需确保授权,跨境数据传输需符合属地法规
- 成本与配额:按调用计费,高频使用需监控配额;大文件下载有 2GiB 上限防护
- 服务可用性:依赖 RunComfy 基础设施,存在 429/5xx 等可重试/不可重试错误码