skills/odrobnik/Gemini Yt Video Transcript

Gemini Yt Video Transcript

📝 AI 一键转录 YouTube 视频

通过 Google Gemini AI 为 YouTube 视频生成逐字转录文本，自动识别说话人并分段，适合快速获取无时间戳的纯净字幕稿。

收藏

17k

安装

3.5k

版本

1.0.1

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

本技能调用 Google Gemini 大语言模型，为指定的 YouTube URL 生成完整的逐字转录文本。用户只需提供视频链接，脚本会自动提取音频并提交给 Gemini 处理，输出格式简洁规范：首行为视频标题，随后每行以 "Speaker: text" 的形式呈现对话内容。

显著优点

AI 驱动的说话人分离：自动识别不同说话人并添加标签，比传统字幕更便于阅读
纯净输出：去除时间码和冗余信息，直接获得可编辑的文本稿
灵活导出：支持 --out 参数指定输出路径，方便批量处理
无需本地 ASR 依赖：转录由云端 Gemini 完成，不依赖本地语音识别模型

潜在缺点与局限性

依赖外部 API：需要有效的 GEMINI_API_KEY，存在配额和费用风险
网络与隐私：视频音频需上传至 Google 处理，敏感内容需谨慎
无时间戳：设计初衷为阅读友好，但无法用于精准定位视频片段
语言支持受限：实际效果取决于 Gemini 对视频语言的支持程度
长视频分段：未明确说明超长视频的处理策略，可能存在截断风险

适合人群

播客/访谈创作者需要快速生成文字稿
研究人员整理视频访谈资料
内容创作者提取视频脚本进行二次编辑
听力障碍用户获取视频文字内容

常规风险

API 密钥泄露可能导致滥用或额外费用
云端处理涉及数据跨境传输合规问题
AI 转录可能存在识别错误，重要场景需人工校对
依赖 YouTube 视频可访问性，区域限制内容无法处理

youtube transcription gemini ai video subtitle productivity speech-to-text content-creation

Gemini Yt Video Transcript 内容

暂无文件树

手动下载zip · 3.4 kB

contentapplication/octet-stream

请选择文件