使用说明

核心用法

本技能提供基于 Google Gemini API 的 Veo 3.x 视频生成命令行工作流，主要解决短视频批量生产场景。核心脚本 generate_video.py 支持：

1. 单片段生成：文本提示 → 轮询等待 → 下载 MP4（默认约 8 秒输出）
2. 多段拼接：通过 --segments 参数串联多个 Veo 请求，使用 ffmpeg 自动拼接成长视频（如 3 段 × 8s = 24s）
3. 风格一致性：--base-style 全局风格前缀 + --segment-style continuation 自动追加连续性指令，或 --use-last-frame 提取上一段末帧作为下一段首帧输入
4. 参考图引导：支持 --reference-image 传入产品图或风格参考图

显著优点

工程化工作流：可复现的 CLI 流程，适合 CI/CD 或批量脚本集成
官方 API 背书：直接调用 Google 官方 Gemini/Veo 服务，非第三方封装
灵活拼接策略：提供 continuation/same 两种分段风格，末帧传递机制增强视觉连贯性
进度可见性：--emit-segment-media 实时输出 MEDIA 标记，便于流水线监控

潜在缺点与局限

长度天花板：单请求输出约 8 秒，长视频需多次 API 调用（成本与延迟线性增长）
连续性非保证：即使启用 --use-last-frame，AI 生成仍可能出现场景跳跃、人物变形等不一致
依赖外部工具：拼接功能强制要求本地 ffmpeg 可用
配额门槛：视频生成需开通 Gemini API 付费层级，免费层易触发 429 配额耗尽
预览版风险：veo-3.1-generate-preview 为预览模型，接口与行为可能变更

适合人群

需批量生产 10-30 秒短视频的电商/广告运营团队
希望将 AI 视频嵌入自动化工作流的技术开发者
熟悉 CLI 环境、具备基础 ffmpeg 知识的用户

常规风险

API 成本失控：分段生成 × 轮询重试可能产生意外费用，建议设置预算告警
内容合规：Veo 输出受 Google 内容政策约束，商业使用需审查生成结果
服务稳定性：503 模型过载错误需客户端实现指数退避重试

安全解读

核心用法

veo3-video-gen 是一款通过 Google Gemini API 调用 Veo 3.x 视频生成模型的 CLI 工具，定位于可复现的自动化视频生产流水线。

基础生成：单条命令将文本提示转为 8 秒左右 MP4，支持 9:16/16:9/1:1 等常见画幅。

多片段拼接：核心差异化能力。Veo 单次输出约 8 秒，通过 --segments N 自动生成 N 个片段并用 ffmpeg 拼接成长视频。提供两种连续性策略：

continuation（默认）：自动追加场景连续性指令
same：完全重复原提示词
--base-style：为所有片段注入统一风格前缀，确保视觉一致性
--use-last-frame：提取前一片段末帧作为 lastFrame 参考，提升镜头连贯性

参考图引导：支持 --reference-image 传入产品图或风格参考，实现品牌可控生成。

显著优点

1. 工程化友好：纯 CLI 设计，易于集成 CI/CD、批量脚本或工作流编排工具（如 n8n、Make）
2. 官方 API 背书：基于 Google 官方 google-genai SDK，非逆向/破解方案，稳定性与合规性有保障
3. 成本可控：按需生成，无预付或订阅门槛；分段策略让用户灵活权衡时长与成本
4. 输出标准化：直接产出 MP4，无需额外转码即可进入主流剪辑软件

潜在缺点与局限性

片段接缝感：即便使用 --use-last-frame，AI 生成的 8 秒片段间仍可能出现细微的风格漂移或运动跳跃，专业项目需人工润色
无实时预览：必须等待完整生成后才能查看结果，迭代成本高于交互式 UI 工具
API 配额限制：429/RESOURCE_EXHAUSTED 错误提示表明该功能对账单与配额敏感，新用户可能触发额度门槛
ffmpeg 外部依赖：跨平台部署时需确保 ffmpeg 可用，Windows 环境配置相对复杂
提示工程门槛："base-style + continuation" 的组合需要一定经验才能稳定输出预期风格

适合人群

营销运营团队：批量生成短视频广告、产品演示素材
独立创作者：快速验证视频创意概念（storyboard → video）
MCN 机构：UGC 风格内容的规模化生产
开发者：需要将视频生成能力嵌入自有应用或自动化流程的技术团队

常规风险

内容合规：Veo 3.x 作为多模态大模型，可能生成版权敏感或不符合平台审核规范的内容，建议开启 Google 的内容过滤并保留人工审核环节
API 密钥管理：虽然 Skill 本身不硬编码密钥，但用户需自行保障 GEMINI_API_KEY 的存储与传输安全，避免泄露至版本控制
成本波动：视频生成 token 消耗高于文本，大规模批量任务前建议建立成本监控

video-generation google-veo gemini-api cli-tool ffmpeg ai-video content-automation preview-api

Veo 3 Video Gen (Gemini API) 内容

scripts文件夹

手动下载zip · 6.4 kB

generate_video.pytext/plain

请选择文件