Veo 3 Video Gen (Gemini API)

🎬 AI 短视频生成与自动拼接专家

基于 Google Veo 3.x 的文本生成视频 CLI 工具,支持分段生成与自动拼接,适合批量制作广告/UGC 风格短视频。

收藏
10.9k
安装
3.1k
版本
0.1.0
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

本技能提供基于 Google Gemini API 的 Veo 3.x 视频生成命令行工作流,主要解决短视频批量生产场景。核心脚本 generate_video.py 支持:

1. 单片段生成:文本提示 → 轮询等待 → 下载 MP4(默认约 8 秒输出)
2. 多段拼接:通过 --segments 参数串联多个 Veo 请求,使用 ffmpeg 自动拼接成长视频(如 3 段 × 8s = 24s)

3. 风格一致性--base-style 全局风格前缀 + --segment-style continuation 自动追加连续性指令,或 --use-last-frame 提取上一段末帧作为下一段首帧输入

4. 参考图引导:支持 --reference-image 传入产品图或风格参考图

显著优点

  • 工程化工作流:可复现的 CLI 流程,适合 CI/CD 或批量脚本集成
  • 官方 API 背书:直接调用 Google 官方 Gemini/Veo 服务,非第三方封装
  • 灵活拼接策略:提供 continuation/same 两种分段风格,末帧传递机制增强视觉连贯性
  • 进度可见性--emit-segment-media 实时输出 MEDIA 标记,便于流水线监控

潜在缺点与局限

  • 长度天花板:单请求输出约 8 秒,长视频需多次 API 调用(成本与延迟线性增长)
  • 连续性非保证:即使启用 --use-last-frame,AI 生成仍可能出现场景跳跃、人物变形等不一致
  • 依赖外部工具:拼接功能强制要求本地 ffmpeg 可用
  • 配额门槛:视频生成需开通 Gemini API 付费层级,免费层易触发 429 配额耗尽
  • 预览版风险veo-3.1-generate-preview 为预览模型,接口与行为可能变更

适合人群

  • 需批量生产 10-30 秒短视频的电商/广告运营团队
  • 希望将 AI 视频嵌入自动化工作流的技术开发者
  • 熟悉 CLI 环境、具备基础 ffmpeg 知识的用户

常规风险

  • API 成本失控:分段生成 × 轮询重试可能产生意外费用,建议设置预算告警
  • 内容合规:Veo 输出受 Google 内容政策约束,商业使用需审查生成结果
  • 服务稳定性:503 模型过载错误需客户端实现指数退避重试

安全解读

核心用法

veo3-video-gen 是一款通过 Google Gemini API 调用 Veo 3.x 视频生成模型的 CLI 工具,定位于可复现的自动化视频生产流水线

基础生成:单条命令将文本提示转为 8 秒左右 MP4,支持 9:16/16:9/1:1 等常见画幅。

多片段拼接:核心差异化能力。Veo 单次输出约 8 秒,通过 --segments N 自动生成 N 个片段并用 ffmpeg 拼接成长视频。提供两种连续性策略:

  • continuation(默认):自动追加场景连续性指令
  • same:完全重复原提示词
  • --base-style:为所有片段注入统一风格前缀,确保视觉一致性
  • --use-last-frame:提取前一片段末帧作为 lastFrame 参考,提升镜头连贯性

参考图引导:支持 --reference-image 传入产品图或风格参考,实现品牌可控生成。

显著优点

1. 工程化友好:纯 CLI 设计,易于集成 CI/CD、批量脚本或工作流编排工具(如 n8n、Make)
2. 官方 API 背书:基于 Google 官方 google-genai SDK,非逆向/破解方案,稳定性与合规性有保障

3. 成本可控:按需生成,无预付或订阅门槛;分段策略让用户灵活权衡时长与成本

4. 输出标准化:直接产出 MP4,无需额外转码即可进入主流剪辑软件

潜在缺点与局限性

  • 片段接缝感:即便使用 --use-last-frame,AI 生成的 8 秒片段间仍可能出现细微的风格漂移或运动跳跃,专业项目需人工润色
  • 无实时预览:必须等待完整生成后才能查看结果,迭代成本高于交互式 UI 工具
  • API 配额限制:429/RESOURCE_EXHAUSTED 错误提示表明该功能对账单与配额敏感,新用户可能触发额度门槛
  • ffmpeg 外部依赖:跨平台部署时需确保 ffmpeg 可用,Windows 环境配置相对复杂
  • 提示工程门槛:"base-style + continuation" 的组合需要一定经验才能稳定输出预期风格

适合人群

  • 营销运营团队:批量生成短视频广告、产品演示素材
  • 独立创作者:快速验证视频创意概念(storyboard → video)
  • MCN 机构:UGC 风格内容的规模化生产
  • 开发者:需要将视频生成能力嵌入自有应用或自动化流程的技术团队

常规风险

  • 内容合规:Veo 3.x 作为多模态大模型,可能生成版权敏感或不符合平台审核规范的内容,建议开启 Google 的内容过滤并保留人工审核环节
  • API 密钥管理:虽然 Skill 本身不硬编码密钥,但用户需自行保障 GEMINI_API_KEY 的存储与传输安全,避免泄露至版本控制
  • 成本波动:视频生成 token 消耗高于文本,大规模批量任务前建议建立成本监控

Veo 3 Video Gen (Gemini API) 内容

scripts文件夹
手动下载zip · 6.4 kB
generate_video.pytext/plain
请选择文件