使用说明

核心用法

TubeScribe 是一款专为 macOS 设计的 YouTube 视频智能处理工具。用户只需粘贴 YouTube 链接，系统即可自动完成提取、转录、总结和语音合成全流程。核心工作流通过单个子代理（sub-agent）执行七步流水线：提取视频元数据与字幕 → 读取结构化信息 → 生成格式化 Markdown 文档（含参与者表格、段落式总结、带可点击时间戳的关键引用、观众情感分析、精选评论、完整转录）→ 转换为 DOCX → 生成音频摘要 → 清理临时文件 → 打开输出文件夹。

触发方式：用户发送 YouTube URL 或主动要求总结/转录视频时立即启动。采用非阻塞设计，主对话继续的同时后台处理，完成后通过子代理通知告知结果。

显著优点

1. 零成本与隐私优先：无需订阅、API 密钥或外部账户；所有转录、说话人检测和 TTS 处理均在本地完成，无数据上传至第三方服务。

2. 多模态输出：同时生成结构化文档（DOCX/HTML/Markdown）和可收听音频摘要（MP3/WAV），支持批量队列处理和 MLX 加速的语音合成（Apple Silicon 最优）。

3. 智能内容解析：自动识别多说话人场景（访谈/播客）与单说话人内容（教程/讲座），提取观众评论情感与精选高赞评论，时间戳直接链接回视频原位置。

4. 灵活配置：通过 ~/.tubescribe/config.json 可精细调整输出格式、TTS 引擎（mlx/kokoro/系统内置）、语音混合、播放速度及队列行为。

潜在缺点与局限性

平台依赖：主要面向 macOS 设计，依赖 Homebrew 生态（brew install）及 Apple Silicon 优化（MLX 后端）。
网络与内容限制：必须联网获取 YouTube 数据；不支持无字幕视频、直播流、私人/年龄限制/区域封锁内容。
可选依赖门槛：DOCX 输出需 Pandoc，MP3 需 FFmpeg，评论获取需 yt-dlp，高质量 TTS 需额外安装 mlx-audio 或 Kokoro。
长视频超时风险：超过 30 分钟的视频需手动调高子代理超时（默认 600 秒，建议 900 秒）。

适合人群

需要快速消化大量 YouTube 内容的研究者、学生、记者与知识工作者
偏好本地处理、注重数据隐私的 macOS 用户
希望将视频内容转为可编辑文档或便携音频的播客听众与内容创作者
拥有 Apple Silicon 设备以充分利用 MLX 加速的用户

常规风险

子代理安全约束：已配置严格指令禁止软件安装（pip/brew/curl/venv/二进制下载），若工具缺失会停止并报告，避免系统污染。
路径与权限：输出目录默认 ~/Documents/TubeScribe，需确保写入权限；配置文件中硬编码路径可能因用户环境差异需调整。
队列状态管理：多 URL 并发时需显式检查 --queue-status，否则可能意外并行或阻塞。
音频生成依赖：若未安装 FFmpeg，MP3 生成将失败或回退至 WAV；TTS 引擎选择影响音质与速度，需预先配置验证。

安全解读

TubeScribe 综合评估

TubeScribe 是一款专为 macOS 设计的 YouTube 视频本地化处理工具，核心功能是将 YouTube 视频内容转化为结构化文档（DOCX/HTML/Markdown）和可收听音频摘要。其最大卖点在于零 API 成本——不依赖任何付费订阅服务，所有转录、说话人识别、文本转语音（TTS）均在本地机器完成。

核心用法

用户仅需提供 YouTube URL，系统通过子代理（sub-agent）异步执行完整流水线：提取视频元数据与字幕 → 生成带说话人标签的完整转录 → 撰写 3-5 段摘要 → 精选 5 条带时间戳的可点击引用 → 分析评论区情感与热门评论 → 输出格式化文档 → 生成语音摘要。全程非阻塞，用户可继续对话。

配置高度可定制，支持三种 TTS 引擎（MLX 优先于 Apple Silicon、Kokoro PyTorch 备用、系统内置 TTS 兜底），可调节语速与音色混合，输出格式涵盖专业 DOCX（需 pandoc）、便携 HTML 或纯 Markdown。

显著优点

1. 完全本地处理，隐私零风险：视频数据、转录文本、生成的音频均不上传任何云端，配置文件存储于 ~/.tubescribe/，敏感内容（如内部会议录像）可安心处理。

2. 成本彻底为零：不依赖 OpenAI、Google 等付费 API，无订阅、无用量限制，适合高频批量处理。

3. Apple Silicon 深度优化：MLX-Audio 后端在 M 系列芯片上运行极快，语音合成质量接近商业 TTS 服务。

4. 说话人识别与互动元素：自动区分多说话人（适合访谈、播客），并整合评论区情感分析与热门评论提取，输出维度远超简单摘要。

5. 安全响应及时：版本历史显示开发者主动修复代码注入（v1.1.0）、XSS（v1.1.2+）、zip-slip（v1.1.3）等漏洞，安全态度积极。

潜在局限与风险

1. 外部工具链依赖重：必须安装 summarize CLI（基于 OpenAI Whisper 的本地封装），可选但推荐 pandoc、ffmpeg、yt-dlp、mlx-audio/kokoro。工具链版本冲突或缺失会导致功能降级（如无法生成 MP3 或 DOCX）。

2. 字幕质量决定上限：依赖 YouTube 自带字幕（CC）或自动生成的字幕，无字幕视频、低质量自动生成字幕、浓重口音内容会严重影响转录准确性。

3. 长视频资源消耗：>30 分钟视频处理时间显著增加，需手动调增子代理超时（默认 600s，建议 900s），期间 CPU/GPU 占用较高。

4. 来源可信度 T3：个人开发者维护（GitHub 账号较新），虽代码质量良好且有安全修复记录，但长期维护稳定性略逊于企业级项目。

5. 平台限制：主要面向 macOS 优化，部分功能（如 Apple Silicon 的 MLX 加速）在其他平台体验降级。

适合人群

知识工作者：需要将 YouTube 教程、讲座、访谈快速转化为可编辑笔记或有声读物
内容创作者：批量处理竞品视频、提取热门评论洞察
隐私敏感用户：处理不便上传云端的内部或敏感视频内容
Apple Silicon Mac 用户：能充分发挥 MLX 加速优势，获得最佳体验

常规风险提示

避免点击来源不明的 YouTube 短链接，虽代码有 URL 验证，但恶意链接仍可能用于信息探测
自动下载的 yt-dlp/pandoc 二进制建议校验哈希或优先使用 brew 安装
定期更新 Skill 版本以获取安全补丁

youtube transcription summarization text-to-speech speaker-diarization local-processing privacy-first macos document-generation audio-synthesis batch-processing

TubeScribe 内容

scripts文件夹

手动下载zip · 43.0 kB

config.pytext/plain

请选择文件