使用说明

核心用法

本 Skill 将 Google Gemini API 的六大多模态能力整合为标准化开发模板：

1. 图像生成（Nano Banana）

支持文生图、图生图、多轮迭代编辑
提供 gemini-2.5-flash-image（速度优化）与 gemini-3-pro-image-preview（高质量/复杂指令）两种模型选择
可配置宽高比（16:9、1:1 等）与分辨率（2K/4K）

2. 图像理解

支持 Inline 嵌入（<20MB）与 Files API 上传两种输入模式
实现图像描述、视觉问答、多图对比、品牌识别等任务

3. 视频生成（Veo 3.1）

生成 8 秒高保真视频，支持 720p/1080p/4K 及原生音频
关键特性：首尾帧控制、参考图像引导、视频扩展、异步轮询下载

4. 视频理解

支持本地文件上传（Files API）、Inline 数据及 YouTube URL 直接分析
可输出带时间戳的事件摘要与结构化证据

5. 语音生成（Gemini TTS）

30 种预置音色，支持 24 种语言自动检测
单/双说话人模式，可通过"导演指令"控制风格、语速、语调
输出 24kHz 16-bit PCM 音频

6. 音频理解

支持 WAV/MP3/FLAC 等格式，最长 9.5 小时
实现音频描述、完整转录、时间段转录及 Token 计数（约 32 tokens/秒）

工程实现要点

统一认证：GEMINI_API_KEY 环境变量管理
输入路由策略：小文件用 Inline（<20MB），大文件/复用场景用 Files API
异步任务处理：视频生成需实现指数退避轮询（建议 5 分钟超时）
二进制输出解析：图像/音频通过 inline_data Base64 解码；视频通过 operation 状态查询后下载

显著优点

1. 端到端覆盖：单一 Skill 覆盖"生成-理解-再生成"完整闭环，无需切换多个服务
2. 模型选型清晰：提供速度优先 vs 质量优先的显式选择矩阵
3. 工程细节完备：包含文件大小阈值建议、Token 成本估算、超时重试策略等生产级考量
4. 多语言/多格式友好：TTS 自动语言检测、音频理解支持 6+ 主流格式
5. 合规内置：SynthID 水印、内容安全提示、版权责任声明前置

潜在局限与风险

1. 视频生成长度受限：Veo 3.1 固定 8 秒输出，长视频需分段生成后拼接
2. 异步任务不确定性：视频生成耗时从秒级到分钟级波动，需健壮的错误处理
3. TTS 声道限制：多说话人模式仅支持 2 人，复杂场景需拆分处理
4. 区域/内容限制：视频生成可能存在基于地域或人物的内容限制
5. 文件生命周期：生成视频服务器保留时间有限，必须及时下载

适合人群

需要快速原型多模态 AI 应用的开发团队
构建内容营销、电商视觉、教育媒体、播客制作等场景的 MLE/全栈工程师
已有 Node.js 技术栈，希望统一接入 Gemini 生态的项目

常规风险

| 风险类型 | 具体表现 | 缓解建议 |

|---------|---------|---------|

| 内容安全 | 生成侵权、误导性或有害内容 | 实施人工审核流程，启用 SynthID 水印追溯 |

| API 稳定性 | 预览版模型行为变更、配额限制 | 抽象模型选择层，实现优雅降级与配额监控 |

| 数据隐私 | 敏感音频/视频上传至第三方 | 评估数据分级，必要时走企业级合规流程 |

| 成本控制 | 4K 视频、长音频理解 Token 消耗高 | 预设分辨率/时长阈值，实施 Token 预算管控 |

| 异步失败 | 视频生成超时或任务中断 | 指数退避轮询 + 死信队列 + 用户通知机制 |

gemini multimodal image-generation video-generation text-to-speech veo nano-banana tts google-ai content-generation media-workflow

Google Gemini Media 内容

examples文件夹

node文件夹

python文件夹

rest文件夹

手动下载zip · 17.0 kB

audio_understand.mjstext/javascript

请选择文件