核心用法
本 Skill 整合 Google Gemini API 的六大多模态能力,提供从内容生成到理解分析的完整工作流:
- 图像生成(Nano Banana):支持文本生图、图像编辑、多轮迭代,可选 gemini-2.5-flash-image(速度优先)或 gemini-3-pro-image-preview(质量优先)
- 图像理解:支持 VQA、字幕、分类、对比,可处理多图输入(内嵌/Files API 双模式)
- 视频生成(Veo 3.1):生成 8 秒高清视频,支持原生音频、首末帧控制、参考图引导,分辨率可达 4K
- 视频理解:支持上传/YouTube URL 分析,输出带时间戳的摘要与问答
- 语音合成(Gemini TTS):单/双说话人可控风格朗读,30 种预置音色,支持 24 种语言
- 音频理解:描述、转录、时段转录、Token 计数,支持 9.5 小时超长音频
技术实现提供统一的 Node.js SDK 与 REST 双端模板,明确区分 Inline(<20MB)与 Files API 两种输入模式,视频生成采用异步轮询机制。
显著优点
1. 官方原生集成:基于 Google Gen AI SDK,API 稳定性与长期维护有保障
2. 端到端闭环:生成→验证→再编辑的完整工作流,支持 A→B→C 链式组合
3. 工程友好:提供明确的模型选择矩阵、输入模式决策树、错误处理与超时退避策略
4. 多模态原生:同一模型家族支持跨模态理解与生成,减少异构系统复杂度
潜在局限
- 语言限制:当前仅提供 Node.js/REST 示例,其他语言需自行映射
- 视频时效性:生成视频服务器保留时间有限,需立即下载
- 成本与延迟:4K 视频、Pro 级图像生成成本较高;视频生成需分钟级轮询等待
- 合规约束:生成内容含 SynthID 水印,人物/区域生成可能受限
适合人群
- 需要快速搭建 AI 媒体生产管道的开发团队
- 构建营销素材、短视频、播客、有声书等内容的工作室
- 已有 Node.js 技术栈、希望减少多供应商对接成本的企业
常规风险
- 版权与合规:需确保上传素材拥有合法权利,禁止生成欺诈、侵权、有害内容
- 生产可靠性:必须实现超时重试、失败降级、人工审核机制,避免单点故障
- Token 成本:长音频/高分辨率视频易触及配额上限,需预先估算与分段处理