核心功能
Transcribee 是一款命令行语音转录工具,整合 yt-dlp 下载能力与 ElevenLabs Scribe API,支持 YouTube 视频及本地音频/视频文件的自动转写。核心特性包括说话人分离(Speaker Diarization),可自动识别对话中的不同说话者并标注输出。
显著优点
1. 多源兼容:同时支持在线 YouTube URL 与本地文件(mp3/mp4/mkv 等 10+ 格式)
2. 结构化输出:生成四种格式——带说话人标签的清洗文本、纯文本、带时间戳的 JSON、元数据文件,便于后续 LLM 处理
3. 自动化归档:按分类自动保存至 ~/Documents/transcripts/,含日期与标题命名
4. 开源依赖:基于 yt-dlp 与 ffmpeg 等成熟开源工具,无封闭生态锁定
潜在局限
- 第三方 API 依赖:核心转写能力完全依赖 ElevenLabs Scribe API,需有效 API key 且受限于服务商定价与可用性
- 隐私风险:音视频内容需上传至 ElevenLabs 云端处理,敏感内容存在数据外泄风险
- 平台限制:主要面向 macOS(Homebrew 依赖),跨平台支持未明确
- 无本地模型:不支持离线转写,无法应对网络中断或 API 限制场景
适合人群
- 播客/访谈创作者需快速生成带说话人标注的文稿
- 研究人员处理大量音视频访谈资料
- 内容团队需要将 YouTube 内容转为 LLM 可分析的文本格式
常规风险
- API 密钥泄露风险(存储于
.env文件) - 版权内容下载的法律合规性(yt-dlp 使用需遵守当地法规)
- 云服务转写的数据留存政策不确定性