核心用法
该 Skill 是一款命令行 YouTube 视频转录工具,调用 Google Gemini 大模型生成逐字稿。用户只需提供 YouTube URL,工具即可返回带说话人标签的纯净文本格式(Speaker: text),自动跳过时间戳和冗余标记。
使用方式:
python3 scripts/youtube_transcript.py "https://www.youtube.com/watch?v=..." [--out <路径>]
输出默认保存至工作目录 out/ 文件夹,首行为视频标题,后续为说话人分段对话。
显著优点
- 输出格式纯净:自动生成
Speaker: text格式,无时间码干扰,直接适用于会议纪要、内容摘要等场景 - 依赖极简:仅使用 Python 标准库(urllib、json、os、sys),零第三方包依赖,部署轻便
- 安全基线较高:输出路径受限(工作目录、/tmp 或 TMPDIR),防止目录遍历;无硬编码凭证
- 合规友好:符合 GDPR 数据最小化原则,无主动数据收集行为
潜在局限
- 需要自备 API Key:依赖用户配置的
GEMINI_API_KEY,对新手不够便捷 - 无时间戳信息:若需精确时间定位,本工具无法满足
- T3 来源风险:由个人开发者维护(GitHub: odrobnik),非企业/基金会背书,需自行跟踪更新
- 网络依赖:必须访问 Google Generative Language API 和 YouTube oEmbed,国内网络环境可能受限
- 错误信息暴露:API 报错时会将原始响应输出至 stderr,存在意外泄露敏感信息的可能
适合人群
- 播客/访谈整理者、会议纪要员、内容创作者
- 需要快速获取 YouTube 视频文字稿的研究者、记者
- 熟悉命令行操作、能自行管理 API Key 的技术用户
常规风险
- 密钥管理:环境变量方式虽标准,但在共享环境或日志中可能意外暴露
- API 成本:Gemini API 调用产生费用,长视频需注意用量
- 输出覆盖:自动命名文件可能覆盖同名历史文件,建议显式指定
--out路径 - 模型幻觉:大模型生成的转录可能存在识别误差,重要场景建议人工复核