使用说明

核心用法

Gemini YouTube Video Transcript 是一款基于 Google Gemini 大模型的 YouTube 视频转录工具。用户只需提供 YouTube 视频链接，即可生成整洁的逐字转录文本，包含说话人标签（Speaker）和自动段落分隔，完全去除时间码干扰。

显著优点

1. Gemini 驱动：背靠 Google 顶级多模态大模型，转录准确度高，对复杂语境、专业术语和多说话人场景理解力强
2. 格式纯净：输出严格限定为「Speaker: text」格式，无多余元数据或时间戳，便于直接用于内容分析、引用或二次创作
3. 自动化流程：Python 脚本一键执行，支持自定义输出路径，集成到工作流成本低
4. 说话人区分：自动识别并标注不同说话人，适合访谈、播客、会议等多角色场景

潜在局限

依赖外部 API：需自备 GEMINI_API_KEY，存在配额和费用考量
无时间码：若需精确时间定位（如字幕制作、引用标注时间点），需额外工具配合
YouTube 限制：仅支持公开/可访问的 YouTube 视频，区域限制或私有视频无法处理
无本地音频处理：无法直接上传本地音频文件，必须经由 YouTube 平台

适合人群

内容创作者、播客制作人、记者、研究人员——需要快速获取视频文字稿
AI 训练数据准备者——需清洗格式化的对话文本
多语言学习者——希望对照原文理解口语表达

常规风险

API 密钥泄露风险（需妥善保管 GEMINI_API_KEY）
转录内容可能受 YouTube 服务条款及版权约束，商业使用需确认授权
大模型幻觉风险：极少数情况下可能出现听写错误或说话人归属偏差，关键场景建议人工复核

youtube transcription gemini google-ai video-to-text speaker-diarization content-creation

Gemini Yt Video Transcript 内容

scripts文件夹

手动下载zip · 3.6 kB

youtube_transcript.pytext/plain

请选择文件