核心功能
Wan Models 是阿里巴巴集团开源的多模态生成模型,该 Skill 通过 Python 脚本封装阿里云百炼平台(ModelStudio)的 API,提供完整的图像与视频生成编辑能力。
主要能力
文生图(text2image):支持通过文本提示生成高质量图像,可选 1-4 张,分辨率支持 512×512 至 1440×1440 像素范围内的多种比例,如 1280×1280、960×1696 等。
图生图/图像编辑(image-edit):支持上传 1-4 张参考图进行风格迁移、背景替换、元素融合等编辑操作,支持 URL 或本地文件路径。
文生视频(text2video):根据文本描述生成 5-15 秒视频,支持 720P 和 1080P 分辨率,采用异步任务模式,需通过 task-id 轮询获取结果。
图生视频(image2video):以单张图片作为首帧生成动态视频,保持画面一致性,同样支持 5-15 秒时长。
参考生视频(reference2video):该模型最具特色的功能,可基于 1-5 张图片或 1-3 个视频作为角色/场景/物体参考,生成保持特定人物一致性或风格延续的新视频,支持单镜头或多镜头智能切换。
技术特点
- 基于 Wan2.1 系列模型,开源且社区活跃
- 支持中文提示词优化
- 本地文件自动转 base64 上传,使用便捷
- 异步任务机制适配长时视频生成场景
局限性与注意事项
- 异步任务设计:视频生成非即时返回,需二次查询任务状态,增加使用复杂度
- API 依赖:必须配置
DASHSCOPE_API_KEY,且调用消耗阿里云百炼平台额度 - 分辨率限制:图像最大 1440×1440,视频固定 720P/1080P 档位,无 4K 支持
- 参考资源限制:reference2video 对引用素材数量和类型有严格限制
- 网络要求:视频/图像 URL 需公网可访问
适用人群
- AI 内容创作者、短视频制作者
- 广告营销与设计行业从业者
- 需快速生成视觉素材的开发者和产品经理
- 对角色一致性视频有强需求的故事板创作者
风险提示
API 密钥需妥善保管,避免硬编码泄露;生成内容需遵守阿里云内容安全规范;视频生成成本显著高于图像,建议控制测试频率。