TubeScribe

🎬 视频一键转文档与播客

将YouTube视频转为结构化文档与音频摘要的本地工具,支持说话人识别、时间戳链接和评论分析,完全免费且隐私安全

收藏
13k
安装
4.5k
版本
1.1.1
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

TubeScribe 是一个完全本地运行的 YouTube 视频处理工具,用户只需粘贴视频链接,即可在数秒内获得完整的结构化文档和音频摘要。工具通过子代理(sub-agent)异步执行完整流程,包括:提取视频元数据与字幕、识别说话人、生成带时间戳的可点击引用、分析观众评论情感、输出精美格式的文档(DOCX/HTML/Markdown)以及高质量的 AI 语音摘要(MP3/WAV)。

显著优点

隐私与成本优势突出:100% 免费,无需订阅或 API 密钥,所有处理在本地完成,数据绝不离开设备,且无使用次数限制。支持智能说话人检测,特别适合访谈、播客等多说话人场景;时间戳可直接跳转 YouTube 对应时刻;内置队列系统可批量处理多个视频。

输出质量与灵活性:文档支持专业级排版,包含参与者表格、关键引用、观众情感分析等模块;音频摘要采用 Kokoro TTS 高质量语音合成,支持自定义音色混合;可配置输出格式、自动打开文件夹等细节。

潜在缺点与局限性

  • 依赖外部工具:需要安装 summarize CLI、pandoc、ffmpeg、yt-dlp 等多个依赖,首次配置较复杂
  • 仅支持带字幕的视频:无字幕视频无法处理,且对自动字幕质量有依赖
  • 说话人识别局限:在背景音乐嘈杂、多人同时说话或音质较差的视频中,识别准确率会下降
  • 不支持直播流:实时直播无法处理,需等待结束
  • 评论获取受限:部分视频因隐私设置或区域限制无法获取评论
  • 平台单一:目前仅支持 YouTube,不支持其他视频平台

适合人群

  • 研究人员、记者、学生:需要快速整理访谈、讲座、纪录片内容
  • 播客听众:希望将长音频转为可搜索、可分享的文档
  • 内容创作者:分析观众反馈,提取热门评论与情感倾向
  • 多语言学习者:通过结构化文本和音频摘要辅助理解外语视频

常规风险

  • 版权与合规:转录受版权保护的内容可能违反 YouTube 服务条款,用户需自行承担法律风险
  • 字幕准确性:自动生成的字幕可能存在错误,关键信息建议人工核对
  • 工具维护依赖:yt-dlp 等工具需定期更新以应对 YouTube 反爬机制变化
  • 存储空间:长视频生成的音频摘要和文档可能占用较大磁盘空间

安全解读

核心用法

TubeScribe 是一款完全本地运行的 YouTube 视频智能转录工具。用户只需粘贴 YouTube 链接,系统即通过子代理自动执行完整流程:提取视频元数据与字幕、识别多说话人、生成带时间戳的结构化 Markdown 文档、转换 DOCX 格式,并利用 Kokoro TTS 合成音频摘要。整个流程无需用户等待,后台异步完成并通过通知推送结果。

显著优点

  • 隐私零妥协:100% 本地执行,无需 API Key,视频数据不离开设备,满足 GDPR/CCPA 合规要求
  • 功能完整:说话人自动识别(适合播客/访谈)、可点击时间戳直达原视频、评论区情感分析、多格式导出(DOCX/HTML/MD)
  • 音频摘要:集成 Kokoro TTS 生成高质量 MP3 摘要,支持自定义音色混合与语速调节
  • 批处理与队列:支持多 URL 顺序处理,自动队列管理防并发冲突
  • 开源可信:MIT 许可证,依赖均来自官方源(GitHub/PyPI/Homebrew)

潜在缺点与局限性

  • 依赖外部 CLI:必须预装 summarizeyt-dlppandocffmpeg 等工具,首次配置较复杂
  • 字幕依赖:无法处理无字幕视频,不支持实时直播流转录
  • 平台限制:仅支持 YouTube,不支持其他视频平台
  • 年龄/地区限制:无法绕过 YouTube 的年龄验证或地区封锁
  • 长视频性能:超过 30 分钟的视频需手动延长子代理超时时间(默认 600 秒)

适合人群

  • 研究人员、学生:快速整理访谈、讲座、纪录片资料
  • 播客听众:生成可搜索的文本存档与随身音频摘要
  • 内容创作者:分析竞品视频结构与观众反馈
  • 隐私敏感用户:拒绝云端转录服务的上传机制

常规风险

  • 供应链安全:setup.py 自动下载的二进制文件缺乏 SHA256 校验(已标记为 low risk)
  • 子进程注入:虽 v1.1.1 已修复历史注入漏洞,但仍建议持续监控外部工具的 CVE 公告
  • 版权合规:转录内容仅限个人学习研究,商业用途需确认原视频授权
  • 模型来源:Kokoro TTS 模型从 HuggingFace 下载,需确保使用官方仓库(hexgrad/Kokoro-82M)

整体评估:功能强大且隐私友好的本地工具,适合技术用户搭建个人知识库,但需注意依赖维护与合规边界。

TubeScribe 内容

scripts文件夹
手动下载zip · 30.9 kB
config.pytext/plain
请选择文件