使用说明

核心功能

TubeScribe 是一款专注于 YouTube 视频内容处理的本地自动化工具，可将任意视频转换为结构化的文档与音频摘要。其核心能力包括：

智能转录与说话人分离：自动识别访谈/播客中的多位参与者，或为单说话人内容（教程、讲座）生成清晰时间轴
多格式文档输出：通过 Pandoc 生成 DOCX 文档，或导出为 HTML/Markdown，包含可点击的时间戳链接（直达视频对应时刻）
AI 音频摘要：利用 Apple Silicon 优化的 MLX-Kokoro TTS 引擎生成自然语音摘要，支持自定义音色混合与语速调节
观众情绪分析：抓取并分析 YouTube 评论区的热门观点与高赞评论

显著优势

1. 完全本地化：无需 API Key、无需订阅、数据零上传，隐私保护级别极高
2. Apple Silicon 深度优化：MLX 后端使音频生成速度较 PyTorch 版本提升数倍
3. 异步工作流：后台子代理处理视频时，对话可继续进行，体验流畅
4. 批量队列支持：自动管理多视频处理队列，避免并行冲突

局限性

依赖外部工具链：需提前安装 summarize CLI、Pandoc、FFmpeg、yt-dlp 等，首次配置门槛较高
字幕依赖性：无法为无字幕视频生成转录（不支持 Whisper 等 ASR）
平台限制：仅支持 YouTube，不支持其他视频平台
硬件偏好：MLX 音频引擎仅限 Apple Silicon，其他平台需回退至较慢的 PyTorch 实现

适用人群

需要将访谈、播客、讲座内容整理为可编辑文档的研究者、记者、学生
重视数据隐私、拒绝云服务的内容创作者与知识工作者
Apple Silicon Mac 用户（可充分发挥 MLX 性能优势）

常规风险

工具链缺失风险：若依赖项未安装，子代理会直接停止并报告，需用户手动处理
长视频超时：默认 600 秒超时可能不足以处理 30 分钟以上视频，需手动调整配置
区域限制内容：无法处理年龄限制、区域屏蔽或直播流内容

youtube transcription tts local-first podcast video-summary document-generation mlx privacy-focused speaker-diarization

TubeScribe 内容

scripts文件夹

手动下载zip · 39.2 kB

config.pytext/plain

请选择文件