Veo 3 Video Gen (Gemini API)

🎬 AI 短视频生成与自动拼接专家

media-generation榜 #16

基于 Google Veo 3.x 的文本生成视频 CLI 工具,支持分段生成与自动拼接,适合批量制作广告/UGC 风格短视频。

收藏
10.9k
安装
3.1k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

本技能提供基于 Google Gemini API 的 Veo 3.x 视频生成命令行工作流,主要解决短视频批量生产场景。核心脚本 generate_video.py 支持:

1. 单片段生成:文本提示 → 轮询等待 → 下载 MP4(默认约 8 秒输出)
2. 多段拼接:通过 --segments 参数串联多个 Veo 请求,使用 ffmpeg 自动拼接成长视频(如 3 段 × 8s = 24s)

3. 风格一致性--base-style 全局风格前缀 + --segment-style continuation 自动追加连续性指令,或 --use-last-frame 提取上一段末帧作为下一段首帧输入

4. 参考图引导:支持 --reference-image 传入产品图或风格参考图

显著优点

  • 工程化工作流:可复现的 CLI 流程,适合 CI/CD 或批量脚本集成
  • 官方 API 背书:直接调用 Google 官方 Gemini/Veo 服务,非第三方封装
  • 灵活拼接策略:提供 continuation/same 两种分段风格,末帧传递机制增强视觉连贯性
  • 进度可见性--emit-segment-media 实时输出 MEDIA 标记,便于流水线监控

潜在缺点与局限

  • 长度天花板:单请求输出约 8 秒,长视频需多次 API 调用(成本与延迟线性增长)
  • 连续性非保证:即使启用 --use-last-frame,AI 生成仍可能出现场景跳跃、人物变形等不一致
  • 依赖外部工具:拼接功能强制要求本地 ffmpeg 可用
  • 配额门槛:视频生成需开通 Gemini API 付费层级,免费层易触发 429 配额耗尽
  • 预览版风险veo-3.1-generate-preview 为预览模型,接口与行为可能变更

适合人群

  • 需批量生产 10-30 秒短视频的电商/广告运营团队
  • 希望将 AI 视频嵌入自动化工作流的技术开发者
  • 熟悉 CLI 环境、具备基础 ffmpeg 知识的用户

常规风险

  • API 成本失控:分段生成 × 轮询重试可能产生意外费用,建议设置预算告警
  • 内容合规:Veo 输出受 Google 内容政策约束,商业使用需审查生成结果
  • 服务稳定性:503 模型过载错误需客户端实现指数退避重试

Veo 3 Video Gen (Gemini API) 内容

暂无文件树

手动下载zip · 6.4 kB
contentapplication/octet-stream
请选择文件