核心用法
本技能提供基于 Google Gemini API 的 Veo 3.x 视频生成命令行工作流,主要解决短视频批量生产场景。核心脚本 generate_video.py 支持:
1. 单片段生成:文本提示 → 轮询等待 → 下载 MP4(默认约 8 秒输出)
2. 多段拼接:通过 --segments 参数串联多个 Veo 请求,使用 ffmpeg 自动拼接成长视频(如 3 段 × 8s = 24s)
3. 风格一致性:--base-style 全局风格前缀 + --segment-style continuation 自动追加连续性指令,或 --use-last-frame 提取上一段末帧作为下一段首帧输入
4. 参考图引导:支持 --reference-image 传入产品图或风格参考图
显著优点
- 工程化工作流:可复现的 CLI 流程,适合 CI/CD 或批量脚本集成
- 官方 API 背书:直接调用 Google 官方 Gemini/Veo 服务,非第三方封装
- 灵活拼接策略:提供
continuation/same两种分段风格,末帧传递机制增强视觉连贯性 - 进度可见性:
--emit-segment-media实时输出 MEDIA 标记,便于流水线监控
潜在缺点与局限
- 长度天花板:单请求输出约 8 秒,长视频需多次 API 调用(成本与延迟线性增长)
- 连续性非保证:即使启用
--use-last-frame,AI 生成仍可能出现场景跳跃、人物变形等不一致 - 依赖外部工具:拼接功能强制要求本地 ffmpeg 可用
- 配额门槛:视频生成需开通 Gemini API 付费层级,免费层易触发 429 配额耗尽
- 预览版风险:
veo-3.1-generate-preview为预览模型,接口与行为可能变更
适合人群
- 需批量生产 10-30 秒短视频的电商/广告运营团队
- 希望将 AI 视频嵌入自动化工作流的技术开发者
- 熟悉 CLI 环境、具备基础 ffmpeg 知识的用户
常规风险
- API 成本失控:分段生成 × 轮询重试可能产生意外费用,建议设置预算告警
- 内容合规:Veo 输出受 Google 内容政策约束,商业使用需审查生成结果
- 服务稳定性:503 模型过载错误需客户端实现指数退避重试