TubeScribe

🎬 YouTube 智能转录与音频摘要生成器

本地运行的YouTube视频智能摘要工具,自动生成带时间戳、发言者标识的格式化文档与音频摘要,100%免费且数据不出本地。

收藏
16k
安装
4.5k
版本
1.1.4
CLS 安全性认证2026-06-05
点击查看完整报告 >

使用说明

核心用法

TubeScribe 是一款专为 YouTube 视频内容设计的本地化处理工具,用户只需提供视频链接,即可自动完成从提取、转录到生成多格式文档和音频摘要的全流程。系统采用非阻塞式架构——主对话在子代理后台处理视频时可持续交互,完成后通过通知推送结果。

完整工作流包含七个步骤:视频元数据与字幕提取 → 读取结构化信息 → 生成带格式的 Markdown 文档(含参与者表格、3-5 段摘要、5 条带时间戳的关键引述、观众情感分析与精选评论、完整转录稿) → 通过 Pandoc 转换为 DOCX → 可选生成音频摘要(支持 macOS 内置语音或 Kokoro TTS)→ 清理临时文件 → 自动打开输出文件夹。

显著优点

  • 零成本零门槛:无需订阅、无需 API 密钥、开箱即用
  • 隐私优先:所有处理在本地完成,视频内容不会上传至第三方
  • 智能格式化:自动识别多发言者场景(访谈/播客)与单发言者内容(讲座/教程),生成带可点击时间戳的专业文档
  • 灵活输出:支持 DOCX、HTML、Markdown 三种文档格式,MP3/WAV 两种音频格式
  • 批量与队列:支持多链接顺序处理,避免并行资源冲突
  • 深度整合:可选提取 YouTube 评论区进行情感分析与优质评论筛选

潜在缺点与局限性

  • 平台受限:仅支持 YouTube,无法处理其他视频平台
  • 依赖字幕质量:转录准确性完全取决于 YouTube 自动字幕或上传者字幕的质量,无内置语音识别纠错
  • 格式依赖:DOCX 输出依赖 Pandoc,MP3 生成依赖 ffmpeg,高品质语音需额外配置 Kokoro TTS
  • macOS 偏向:内置 TTS 使用 say 命令,Windows/Linux 用户需额外配置
  • 长视频超时风险:超过 30 分钟的视频需手动调增子代理超时时间(默认 600 秒)
  • 实时流不支持:无法处理正在直播的内容

适合人群

  • 内容创作者与编辑:快速提取访谈金句、生成节目笔记
  • 学生与研究者:将学术讲座、纪录片转为可搜索的文档与随身听音频
  • 市场分析师:批量处理行业访谈、提取观众评论洞察
  • 播客听众:生成带时间戳的 shownotes,便于二次引用

常规风险

  • 版权合规:生成的文档与音频仅限个人学习使用,商用传播需获得原视频版权方授权
  • 字幕缺失风险:无字幕视频完全无法处理,需用户提前确认
  • 年龄/地区限制:部分视频因平台策略无法访问
  • 依赖维护:yt-dlp、Kokoro 等外部工具更新可能导致兼容性问题

安全解读

TubeScribe 综合评估

TubeScribe 是一款专为 YouTube 视频内容设计的本地转录与摘要工具,能够将任意 YouTube 链接转换为结构化的文档与音频摘要。其核心流程包括:提取视频元数据与字幕、生成带说话人标签的转录文本、撰写摘要与精选引用、输出 DOCX/HTML/Markdown 格式文档,并可选择生成语音摘要(MP3/WAV)。

核心用法

用户提交 YouTube URL 后,主代理立即派生子代理执行完整流水线,无需阻塞对话。子代理依次完成:视频信息提取、Markdown 格式化(含参与者表格、摘要段落、可点击时间戳引用、观众评论情感分析)、DOCX 文档生成(pandoc 转换)、语音合成(内置 macOS say 或 Kokoro TTS),最后清理临时文件并打开输出文件夹。

显著优点

  • 完全本地化:无需 API 密钥、无订阅费用、数据不离开本机,契合隐私敏感场景
  • 说话人智能识别:针对访谈、播客等多人场景自动标注发言者
  • 多格式输出:支持 DOCX、HTML、Markdown,满足编辑、分享、存档不同需求
  • 可点击时间戳:引用直接链接到 YouTube 对应时刻,便于回溯原始语境
  • 观众评论分析:提取热门评论与情感倾向,辅助判断视频价值
  • 队列与批量处理:支持多 URL 排队与顺序处理,适合批量整理系列内容

潜在缺点与局限性

  • 依赖复杂:需预先安装 summarize CLI、pandoc、ffmpeg、yt-dlp、Python 3.8+,初次配置门槛较高
  • 仅支持有字幕的视频:若视频无字幕或字幕未公开,则无法转录
  • 无云端 AI 摘要:摘要质量取决于本地 summarize 工具,长视频或复杂内容可能不如 GPT-4 等云端模型精准
  • 平台限制:语音合成功能在 macOS 上体验最佳(say 命令),其他系统需配置 Kokoro TTS
  • 说话人识别局限:自动检测依赖音频特征,背景嘈杂或语音重叠时准确率下降

适合人群

  • 播客与访谈听众:快速生成带时间戳的要点笔记
  • 学生与研究者:整理课程、讲座、学术访谈的文本存档
  • 内容创作者:分析竞品视频的观众反馈与情感倾向
  • 隐私敏感用户:拒绝将数据提交至云端转录服务

常规风险

  • 外部命令注入风险:虽经 URL 白名单与正则验证,但仍通过 subprocess 调用 yt-dlp、pandoc 等工具
  • 供应链风险:setup 脚本自动从 GitHub/PyPI 下载二进制,缺乏 SHA256 校验
  • 临时文件残留:转录内容短暂存储于 /tmp~/.tubescribe/,虽配置自动清理,但异常中断可能遗留敏感数据
  • 版权与合规:转录受版权保护的视频可能违反 YouTube 服务条款或当地法律,用户需自行评估合法性

TubeScribe 内容

scripts文件夹
手动下载zip · 32.2 kB
config.pytext/plain
请选择文件