核心用法
transcribee 是一款命令行转录工具,通过 ElevenLabs 的 Scribe API 实现音视频转文字。核心用法极为简洁:直接传入 YouTube URL 或本地文件路径即可触发全流程——自动下载(YouTube 场景)、格式转换、语音识别、说话人分离,最终生成四种格式的输出文件。
典型工作流:
# 转录 YouTube 视频(URL 需引号包裹) transcribee "https://www.youtube.com/watch?v=xxx" # 转录本地播客/会议录音 transcribee ~/Downloads/interview.mp3
输出文件按 ~/Documents/transcripts/{category}/{title}-{date}/ 结构归档,包含:
transcription.txt— 带说话人标签的整洁文本(如 "Speaker A: ...")transcription-raw.txt— 纯文本无标签transcription-raw.json— 单词级时间戳(精确字幕制作)metadata.json— 视频元数据、语言识别、自动分类
显著优点
1. 说话人分离(Diarization):自动区分不同说话人,会议记录、访谈整理效率倍增
2. 多格式兼容:覆盖主流音视频格式(mp3/mp4/mkv/webm 等),无需手动转码
3. YouTube 原生支持:集成 yt-dlp,一键处理在线视频,自动提取标题、频道信息
4. 结构化输出:JSON 时间戳数据可直接导入字幕软件或进行时间轴分析
5. LLM 就绪:默认输出已清洗,可直接投喂大语言模型进行摘要、问答、情感分析
潜在缺点与局限
| 局限 | 说明 |
|------|------|
| **第三方 API 依赖** | 核心功能完全依赖 ElevenLabs Scribe API,需自备 API key,存在单点故障风险 |
| **成本累积** | ElevenLabs 按音频时长计费,长视频/批量处理成本需关注(约 $0.02-0.04/分钟) |
| **网络要求** | YouTube 下载需稳定网络,部分区域可能受限制 |
| **隐私边界** | 敏感音频需上传至 ElevenLabs 云端处理,本地化部署非本工具范畴 |
| **语言支持** | 实际准确率受 ElevenLabs 模型语言能力约束,小语种表现未明确说明 |
适合人群
- 播客创作者/听众:快速生成节目文字稿,制作摘录或搜索索引
- 研究学者:批量转录访谈录音、学术讲座,建立可检索的文本库
- 会议效率者:替代传统速记,自动生成带发言人的会议纪要底稿
- 内容运营:YouTube/B站 创作者获取视频文案,二次剪辑或图文转化
- 开发者/AI 用户:需要结构化 transcript 作为 LLM RAG pipeline 的输入源
常规风险
- API 密钥泄露:
.env文件若误提交至版本控制,可能导致密钥滥用 - 版权合规:YouTube 下载需遵守平台 ToS 及当地版权法规,商业用途需谨慎
- 存储膨胀:长期累积的原始音频+转录文件可能占用大量本地磁盘空间
- 依赖维护:yt-dlp 需定期更新以应对 YouTube 反爬策略变化
> 安全提示:建议在 .env 文件所在目录添加 .gitignore,并考虑启用 ElevenLabs API key 的 IP 白名单或用量告警。