使用说明

Wan Models 是阿里巴巴集团开源的多模态生成模型，该 Skill 通过 Python 脚本封装阿里云百炼平台（ModelStudio）的 API，提供完整的图像与视频生成编辑能力。

文生图（text2image）：支持通过文本提示生成高质量图像，可选 1-4 张，分辨率支持 512×512 至 1440×1440 像素范围内的多种比例，如 1280×1280、960×1696 等。

图生图/图像编辑（image-edit）：支持上传 1-4 张参考图进行风格迁移、背景替换、元素融合等编辑操作，支持 URL 或本地文件路径。

文生视频（text2video）：根据文本描述生成 5-15 秒视频，支持 720P 和 1080P 分辨率，采用异步任务模式，需通过 task-id 轮询获取结果。

图生视频（image2video）：以单张图片作为首帧生成动态视频，保持画面一致性，同样支持 5-15 秒时长。

参考生视频（reference2video）：该模型最具特色的功能，可基于 1-5 张图片或 1-3 个视频作为角色/场景/物体参考，生成保持特定人物一致性或风格延续的新视频，支持单镜头或多镜头智能切换。

API 密钥需妥善保管，避免硬编码泄露；生成内容需遵守阿里云内容安全规范；视频生成成本显著高于图像，建议控制测试频率。

安全解读

Wan-image-video-gen-edit 是基于阿里巴巴Wan2.6系列模型的多模态AI内容生成工具，深度集成阿里云百炼(Bailian)平台官方API，提供五种核心能力：

官方可靠性：直接调用阿里云dashscope官方API，TLS加密传输，数据来源可信(T2级)。

功能完整性：覆盖图像生成→编辑→视频制作的完整创作链路，reference2video功能在多角色一致性生成方面具有技术领先性。

使用灵活性：同时支持URL远程素材和本地文件输入(自动转base64)，CLI设计适合自动化工作流集成。

异步任务架构：视频生成采用任务提交+轮询查询模式，适配AI生成任务的长时间处理特性。

API密钥(DASHSCOPE_API_KEY)需妥善保管；生成内容需遵守阿里云使用规范及当地法规；参考视频功能涉及人脸/声音合成时需注意肖像权与深度伪造合规风险。

references文件夹

scripts文件夹

手动下载zip · 22.2 kB

wan2.6-i2v-api-doc.mdtext/markdown

请选择文件