核心用法
本技能调用 Google Gemini 大语言模型,为指定的 YouTube URL 生成完整的逐字转录文本。用户只需提供视频链接,脚本会自动提取音频并提交给 Gemini 处理,输出格式简洁规范:首行为视频标题,随后每行以 "Speaker: text" 的形式呈现对话内容。
显著优点
- AI 驱动的说话人分离:自动识别不同说话人并添加标签,比传统字幕更便于阅读
- 纯净输出:去除时间码和冗余信息,直接获得可编辑的文本稿
- 灵活导出:支持
--out参数指定输出路径,方便批量处理 - 无需本地 ASR 依赖:转录由云端 Gemini 完成,不依赖本地语音识别模型
潜在缺点与局限性
- 依赖外部 API:需要有效的 GEMINI_API_KEY,存在配额和费用风险
- 网络与隐私:视频音频需上传至 Google 处理,敏感内容需谨慎
- 无时间戳:设计初衷为阅读友好,但无法用于精准定位视频片段
- 语言支持受限:实际效果取决于 Gemini 对视频语言的支持程度
- 长视频分段:未明确说明超长视频的处理策略,可能存在截断风险
适合人群
- 播客/访谈创作者需要快速生成文字稿
- 研究人员整理视频访谈资料
- 内容创作者提取视频脚本进行二次编辑
- 听力障碍用户获取视频文字内容
常规风险
- API 密钥泄露可能导致滥用或额外费用
- 云端处理涉及数据跨境传输合规问题
- AI 转录可能存在识别错误,重要场景需人工校对
- 依赖 YouTube 视频可访问性,区域限制内容无法处理